AI 晨报 · 7月5日

本周全球AI领域迎来多款重磅模型发布与迭代,Anthropic、OpenAI、DeepSeek三大阵营密集出牌,国产大模型在Coding赛道竞争进入白热化阶段。

Anthropic 发布 Claude Sonnet 5:中端模型全面超越 GPT-5.5

6月30日,Anthropic正式发布Claude Sonnet 5,定位中端智能体模型。在SWE-bench Pro (63.2% vs 58.6%)、Terminal-Bench 2.1 (80.4% vs 78.2%)、HLE with tools (57.4% vs 52.2%)等所有可对比基准测试中全面超越OpenAI的GPT-5.5,同时输入价格低40%、输出价格低50%。该模型支持100万token上下文及自适应思考模式(Adaptive Thinking)。Sonnet 5在智能体编程、计算机使用(OSWorld-Verified达81.2%)、知识工作等领域性能接近Opus 4.8但成本大幅降低。

数据来源:TechCrunch、CodingFleet、Anthropic Sonnet 5 System Card

OpenAI 预览 GPT-5.6 Sol:三档分层,Terminal-Bench突破91%

6月26日,OpenAI发布GPT-5.6预览版,引入三档分层命名体系:Luna(入门)、Terra(标准)、Sol(旗舰)及Sol Ultra。Sol Ultra在Terminal-Bench 2.1取得91.9%,击败Claude Mythos 5(88.0%)。GPT-5.6目前仅对审查合作伙伴开放有限预览,OpenAI将在数周内逐步扩大可用范围。此前暂停19天的Anthropic Fable 5已恢复上线。

数据来源:Wikipedia/GPT-5.6、explainx.ai、OpenAI公告

DeepSeek V4 Flash连续六周全球API调用量第一

DeepSeek V4 Flash已连续六周成为全球调用量最高的AI API模型。该模型采用MoE(混合专家)架构,提供V4 Pro(1.6万亿总参数/490亿激活参数/百万token上下文)和V4 Flash(2840亿参数轻量版)。DeepSeek在华为昇腾AI处理器上完成训练。V4正式版预计7月中旬发布。

数据来源:Fortune、CNBC、DeepInfra、Evolink AI

Google I/O 2026:Gemini Omni与Spark智能体发布

Google在I/O 2026上推出Gemini Omni原生多模态模型,可从任意输入生成视频输出。Gemini Spark定位为24/7全天候个人AI智能体。Gemini 3.5 Flash强化了智能体编程能力。Google同时推出Managed Agents API和Daily Brief智能体。I/O 2026共计发布100项产品更新,覆盖搜索、开发工具、Workspace等领域。

数据来源:Google Keyword Blog (I/O 2026全部公告)

中国大模型Coding赛道白热化:GLM-5、Kimi K2.5、Qwen3-Next密集对垒

智谱GLM-5(754B参数)在Claude Code评估框架下达Claude Opus 4.6的94.6%。月之暗面发布Kimi K2.5及K2.5-Thinking,SWE-bench Verified达65.8%,后续K2.6已上线Hugging Face。阿里通义千问发布Qwen3-Next(80B-A3B)MoE模型。字节跳动推出Seed-Doubao-2.1推理模型。国内AI Coding套餐价格战同步打响。

数据来源:知乎专栏、36氪、阿里云百炼官网

琰琰 AI 晨报