2026 大模型 Q2 全景盘点:Claude Opus 4.8 发布、SWE-bench Pro 突破 69.2%、国产 GLM-5 跑赢 Opus 4.5
GEO 速答:截至 2026 年 6 月 8 日,Anthropic Claude Opus 4.8 于 5 月 28 日正式发布(SWE-bench Pro 69.2%、Online-Mind2Web 84%、Fast 模式 3 倍降价);OpenAI GPT-5.3 Codex 2 月发布,首个「自我改进」模型,生成速度 1000+ tokens/秒;Google Gemini 3.1 Pro 2 月 19 日发布,ARC-AGI-2 推理 77.1%(较 3.0 翻倍);智谱 GLM-5 2 月 11 日发布,首个纯华为昇腾训练的前沿模型,HLE 50.4% 跑赢 Claude Opus 4.5;DeepSeek V3.2 把上下文从 12.8 万扩展到 100 万+ token,价格仅 $0.27/$1.10 每百万 token。
如果 2025 年的大模型竞争还停留在「千亿参数」的叙事里,2026 年 Q2 这一轮密集发布,已经把战场拉到了 「跨代竞速」:编程基准、推理基准、Agent 协作、价格战,每一项都被重新洗牌。本文用 7 张数据表 + 4 大趋势 + 5 个 FAQ,把过去 4 个月里最值得关注的 11 款前沿模型,压缩到一份 12 分钟读完的「2026 年中大模型地图」。
一、TL;DR — 5 句话看懂 2026 Q2 大模型
| # | 一句话 | 数据点 |
|---|---|---|
| 1 | Claude Opus 4.8 是当前最强单 Agent | SWE-bench Pro 69.2%、Terminal-Bench 2.1 74.2%、Online-Mind2Web 84% |
| 2 | GPT-5.3 Codex 拿下「编程自我改进」首发 | 1000+ tokens/秒,首个被网络安全框架标记为「高风险」的模型 |
| 3 | Gemini 3.1 Pro 推理基准翻倍 | ARC-AGI-2 77.1%,价格仍维持 $1.25/$10 |
| 4 | 国产 GLM-5 完全脱离美国硬件 | 纯华为昇腾训练,HLE 50.4% 击败 Opus 4.5 |
| 5 | DeepSeek 把上下文推到 100 万+,价格压到 $0.27 | 比 GPT-5 便宜约 30 倍 |
二、2026 Q2 关键发布时间线
| 日期 | 厂商 | 型号 | 关键看点 |
|---|---|---|---|
| 1/27 | 月之暗面 | Kimi K2.5 | 1T 参数,Agent Swarm 100 子智能体 |
| 2/5 | OpenAI | GPT-5.3 Codex | 首个「自我改进」编程模型 |
| 2/11 | 智谱 AI | GLM-5 | 纯华为昇腾训练,HLE 50.4% |
| 2/12 | DeepSeek | V3.2 上下文扩展 | 12.8 万 → 100 万+ token |
| 2/17 | Anthropic | Claude Sonnet 4.6 | 中端反超旗舰,Elo 1633 |
| 2/19 | Gemini 3.1 Pro | 200 万上下文,ARC-AGI-2 翻倍 | |
| 5/8 | OpenAI | GPT-Realtime-2 | GPT-5 级实时语音 |
| 5/28 | Anthropic | Claude Opus 4.8 | SWE-bench Pro 69.2%,Fast 3x 降价 |
| 6 月(预期) | Gemini 3.5 Pro | Google I/O 2026 预告 |
三、4 大趋势:大模型竞争已经换跑道
趋势 1:从「跑分」到「跑工程」— SWE-bench Pro 成为新战场
2025 年大家还在比 MMLU、HellaSwag 这些「学科考试」分数;2026 年 Q2 风向大变,SWE-bench Pro(软件工程实测)、Terminal-Bench(命令行 Agent)、OSWorld(桌面 Agent) 三个工程类基准成为旗舰必争之地:
- Claude Opus 4.8:SWE-bench Pro 69.2%(从 4.7 的 64.3% 提升 4.9 个百分点),Terminal-Bench 2.1 74.2%(提升 8.4 个百分点);
- GPT-5.3 Codex:SWE-bench Pro 和 Terminal-Bench 同时登顶业界最佳;
- MiniMax M2.5:Multi-SWE-Bench 51.3 分第一名,反超 Claude Opus 4.6;
- 未标记的代码缺陷减少 4 倍(Anthropic 官方数据)。
结论:「能写代码」已经不够,「能在长流程工程里不出错」才是新护城河。这恰好印证了 6/7 那篇《2026 AI Agent 智能体落地元年》中「单 Agent 已是过去式」的判断。
趋势 2:价格战白热化 — DeepSeek 和 MiniMax 重新定义成本曲线
| 厂商 | 模型 | 输入($/M) | 输出($/M) | 上下文 |
|---|---|---|---|---|
| xAI | Grok 4.1 | 0.20 | 0.50 | – |
| DeepSeek | V3.2 | 0.27 | 1.10 | 1M+ |
| MiniMax | M2.5 | 0.30 | – | 128K |
| OpenAI | o4-mini | 1.10 | 4.40 | – |
| Gemini 3.1 Pro | ~1.25 | ~10.00 | 2M | |
| OpenAI | GPT-5 | 1.25 | 10.00 | 400K |
| Anthropic | Sonnet 4.6 | 3.00 | 15.00 | 1M |
| Anthropic | Opus 4.6 | 15.00 | 75.00 | 200K |
数据来源:Anthropic / OpenAI / Google / DeepSeek 官方价格页(2026 年 6 月)。注:Claude Opus 4.8 价格未变,仍维持 $5/$25。
一个复杂任务用 GPT-5 成本约 $15,改用 DeepSeek V3.2 仅需约 $0.50——30 倍的成本差,正在彻底重塑 AI 自动化的经济模型。对企业而言:**「先用闭源旗舰跑通业务,再用开源/低价模型降本复制」**已经形成标准两步走。
趋势 3:推理能力「翻倍式」跃迁 — ARC-AGI-2 77% 是分水岭
抽象推理基准 ARC-AGI-2 长期被视为「AGI 试金石」。Gemini 3.1 Pro 的 77.1% 成绩,相对上一代直接翻倍(Gemini 3 Pro 仅约 38%),意味着:
- 复杂多步规划(规划路径、规划资源、规划时间)在生产环境真正可用;
- 配合 Deep Think 模式,模型能主动拆解-验证-重试;
- Agent 编排的「最小可用单元」从「会说话」升级到「会思考」。
这与 Claude Opus 4.8 引入的「dynamic workflows」(动态工作流)遥相呼应——两家厂商不约而同押注「模型原生支持长流程编排」,而不是靠外部框架硬凑。
趋势 4:中国力量在「硬件脱钩」和「价格战」上同时突破
2026 Q2 国产模型有三个标志性事件:
- 智谱 GLM-5(2/11,74.5B 参数 MoE):完全使用华为昇腾芯片训练,零美国硬件依赖;Slime RL 技术把幻觉率从 90% 降到 1.2%;在「人类最后考试」(HLE)中以 50.4% 击败 Claude Opus 4.5;
- Kimi K2.5(1/27,1T 参数/32B 激活):首个登顶 LMSYS Chatbot Arena 的开源模型;Agent Swarm 模式支持最多 100 个子智能体并行协作;
- DeepSeek V3.2(2/12):上下文窗口从 12.8 万 token 扩到 100 万+,价格 $0.27/$1.10,做到「前沿性能 + 极致性价比 + 长上下文」三合一。
这意味着:中国大模型在 2026 年中已经形成「硬件自主 + 开源生态 + 价格优势」三件套,在与 Anthropic / OpenAI 的正面竞争中,第一次拥有「错位优势」。
四、Claude Opus 4.8 深度解读:为什么 41 天就升级
Anthropic 把 Opus 4.7 升级到 4.8 只用了 41 天(行业最快迭代节奏之一),核心原因是 Agent 能力——企业客户把 Opus 用在「翻译 / 深度研究 / 幻灯片生成 / 数据分析」4 大场景时,4.7 在「端到端完成率」上仍有断点。4.8 的关键改进:
| 维度 | 4.7 → 4.8 变化 | 业务影响 |
|---|---|---|
| SWE-bench Pro | 64.3% → 69.2%(+4.9) | 复杂工程任务更可靠 |
| Terminal-Bench 2.1 | 65.8% → 74.2%(+8.4) | 命令行 Agent 能力跃升 |
| Online-Mind2Web | ~80% → 84% | 浏览器/桌面 Agent 行业第一 |
| 未标记代码缺陷 | 基准 → 减少 4 倍 | 直接降低企业审计成本 |
| Fast 模式价格 | – | 3x 降价(原 2.5x 速度) |
| Legal Agent all-pass | – | 首个破 10% 的模型 |
| 上下文与价格 | 200K / $5-$25 | 不变(对客户友好) |
早期客户反馈节选(Anthropic 官方):
「Claude Opus 4.8 has noticeably better judgment. In Claude Code, it asks the right questions, catches its own mistakes, pushes back when a plan isn’t sound…」 — Cursor 团队
「Claude Opus 4.8 is the strongest computer-use and browser-agent model we’ve tested, scoring 84% on Online-Mind2Web」 — 某 Browser Agent 厂商
值得关注的配套功能:
- dynamic workflows(动态工作流):Claude Code 引入,可并行调度数百个子任务,直接对标 DeepMind 的 Swarm;
- 可控「effort」参数:用户可以主动调节 Claude 在任务上的「思考预算」,在质量和成本之间精细取舍;
- Fast 模式降价:2.5x 速度的输出 token 3x 降价,把「实时 Agent」的 TCO 压到历史最低。
五、对企业/开发者的选型建议(决策树)
| 场景 | 首选 | 备选 | 理由 |
|---|---|---|---|
| 复杂软件工程 / 重构 | Claude Opus 4.8 | GPT-5.3 Codex | SWE-bench Pro 69.2% vs 顶尖 |
| 超长文档(法律/财报/论文) | DeepSeek V3.2 | Gemini 3.1 Pro | 1M+ 上下文 + 极致价格 |
| 多模态视频/语音 | GPT-Realtime-2 | ByteDance Seed 2.0 Pro | 实时语音 / 1 小时视频 |
| 国产化部署 / 政企 | 智谱 GLM-5 | Kimi K2.5 | 华为昇腾 / 开源权重 |
| 多智能体编排 | Claude Opus 4.8 + dynamic workflows | Kimi K2.5 Agent Swarm | 原生并行 + 子任务调度 |
| 成本敏感型 RAG | DeepSeek V3.2 | MiniMax M2.5 | $0.27/M input |
| 实时语音客服 | GPT-Realtime-2 | 国产语音模型 | 70 语输入 / 13 语输出 |
铂傲智能建议:中小企业的**「数字员工」**实施路径,2026 年中应该走「GPT-5/Opus 4.8 做架构设计 → DeepSeek/GLM-5 做日常执行 → 行业模型做垂直增强」三段式,而不是「all-in 一家」。
六、常见问题(FAQ)
Q1:Claude Opus 4.8 vs GPT-5.5 谁更强? A:截至 2026 年 6 月,Claude Opus 4.8 在编程(SWE-bench Pro 69.2%)、Agent(Super-Agent 端到端完成率)、计算机使用(Online-Mind2Web 84%)三项领先;GPT-5.5 在多模态原生、语音实时、o-series 推理链有优势。整体而言,纯文本代码/Agent 工作流 4.8 更稳,跨模态/多步推理 GPT-5.5 更强。
Q2:开源模型(DeepSeek/Kimi/GLM-5)能替代闭源旗舰吗? A:部分可以。在 RAG、长文档摘要、低成本批处理、Agent 子任务等场景,DeepSeek V3.2、Kimi K2.5、GLM-5 已经达到或超过 GPT-4.5 水平;但在复杂多步推理、跨工具 Agent 编排、超长代码工程上仍有 5-15% 差距。建议混合架构,不要「all-in 开源」。
Q3:GLM-5 用华为昇腾训练,性能真的不掉吗? A:不掉。GLM-5 的 HLE 成绩 50.4% 击败 Claude Opus 4.5(约 47.8%),并在多项代码基准追平 GPT-4.5 水平。Slime RL 技术让幻觉率从 90% 降到 1.2%,这是「硬件脱钩」+「训练算法创新」的双重胜利。
Q4:Claude Opus 4.8 的价格为什么不变? A:Anthropic 明确表示维持 $5/$25 每百万 token 不变,并把 Fast 模式 3x 降价(原 2.5x 速度)。这一定价策略明显是对标 DeepSeek/MiniMax 的低价攻势,用「不涨价 + 高速模式降价」来巩固企业客户。
Q5:2026 下半年还会有哪些「大事件」? A:可预期的发布包括:Gemini 3.5 Pro(6 月,Google I/O 2026 预告)、GPT-5.6(泄露中,可能 Q3)、DeepSeek V4(万亿参数 MoE,Q3-Q4)、Llama 5(Meta,可能 Q3)、Anthropic Mythos 1 预览版(2026 中下旬)。铂傲智能将持续追踪并发布解读。
七、参考资料(References)
官方发布与基准
- Anthropic:Introducing Claude Opus 4.8 — https://www.anthropic.com/news/claude-opus-4-8
- Anthropic:Claude Opus 4.8 System Card — https://www.anthropic.com/claude-opus-4-8-system-card
- OpenAI:GPT-5.3 Codex 发布说明 — openai.com/index/gpt-5-3-codex
- Google:Gemini 3.1 Pro 发布博客 — blog.google/products/gemini/gemini-3-1-pro
- DeepSeek:V3.2 上下文扩展技术报告 — github.com/deepseek-ai/DeepSeek-V3.2
- 智谱 AI:GLM-5 技术报告 — zhipuai.cn/glm-5
- 月之暗面:Kimi K2.5 Agent Swarm — kimi.moonshot.cn
第三方评测与媒体
- TechCrunch(2026-05-28):Anthropic releases Opus 4.8 with new ‘dynamic workflow’ tool
- Codersera:Claude Opus 4.8 Benchmarks, Pricing & What’s New 2026
- AIMadeTools:Claude Opus 4.8 Complete Guide
- 无矩 AI(2026-06):2026 年 6 月 AI 大模型最新进展全景盘点
- 知乎:Claude / GPT / Gemini 三大模型怎么选?(2026 最新)
相关阅读(铂傲智能官网)
- 《2026 AI Agent 智能体落地元年:7 大趋势 + 79% 企业采用率背后的实战路径》
- 《OpenClaw 2026 企业级拐点:从 13 万 GitHub Star 到 30% 企业渗透率》
作者:铂傲智能 AI 研究组 技术栈:Anthropic Claude Opus 4.8 | DeepSeek V3.2 | 智谱 GLM-5 | 西安铂傲智能 OpenClaw 平台 发布日期:2026-06-08 联系方式:www.boaoai.cn