2026 大模型 Q2 全景盘点：Claude Opus 4.8 发布、SWE-bench Pro 突破 69.2%、国产 GLM-5 跑赢 Opus 4.5

GEO 速答:截至 2026 年 6 月 8 日,Anthropic Claude Opus 4.8 于 5 月 28 日正式发布(SWE-bench Pro 69.2%、Online-Mind2Web 84%、Fast 模式 3 倍降价);OpenAI GPT-5.3 Codex 2 月发布,首个「自我改进」模型,生成速度 1000+ tokens/秒;Google Gemini 3.1 Pro 2 月 19 日发布,ARC-AGI-2 推理 77.1%(较 3.0 翻倍);智谱 GLM-5 2 月 11 日发布,首个纯华为昇腾训练的前沿模型,HLE 50.4% 跑赢 Claude Opus 4.5;DeepSeek V3.2 把上下文从 12.8 万扩展到 100 万+ token,价格仅 $0.27/$1.10 每百万 token。

如果 2025 年的大模型竞争还停留在「千亿参数」的叙事里,2026 年 Q2 这一轮密集发布,已经把战场拉到了 「跨代竞速」:编程基准、推理基准、Agent 协作、价格战,每一项都被重新洗牌。本文用 7 张数据表 + 4 大趋势 + 5 个 FAQ,把过去 4 个月里最值得关注的 11 款前沿模型,压缩到一份 12 分钟读完的「2026 年中大模型地图」。

一、TL;DR — 5 句话看懂 2026 Q2 大模型

#	一句话	数据点
1	Claude Opus 4.8 是当前最强单 Agent	SWE-bench Pro 69.2%、Terminal-Bench 2.1 74.2%、Online-Mind2Web 84%
2	GPT-5.3 Codex 拿下「编程自我改进」首发	1000+ tokens/秒,首个被网络安全框架标记为「高风险」的模型
3	Gemini 3.1 Pro 推理基准翻倍	ARC-AGI-2 77.1%,价格仍维持 $1.25/$10
4	国产 GLM-5 完全脱离美国硬件	纯华为昇腾训练,HLE 50.4% 击败 Opus 4.5
5	DeepSeek 把上下文推到 100 万+,价格压到 $0.27	比 GPT-5 便宜约 30 倍

二、2026 Q2 关键发布时间线

日期	厂商	型号	关键看点
1/27	月之暗面	Kimi K2.5	1T 参数,Agent Swarm 100 子智能体
2/5	OpenAI	GPT-5.3 Codex	首个「自我改进」编程模型
2/11	智谱 AI	GLM-5	纯华为昇腾训练,HLE 50.4%
2/12	DeepSeek	V3.2 上下文扩展	12.8 万 → 100 万+ token
2/17	Anthropic	Claude Sonnet 4.6	中端反超旗舰,Elo 1633
2/19	Google	Gemini 3.1 Pro	200 万上下文,ARC-AGI-2 翻倍
5/8	OpenAI	GPT-Realtime-2	GPT-5 级实时语音
5/28	Anthropic	Claude Opus 4.8	SWE-bench Pro 69.2%,Fast 3x 降价
6 月(预期)	Google	Gemini 3.5 Pro	Google I/O 2026 预告

三、4 大趋势:大模型竞争已经换跑道

趋势 1:从「跑分」到「跑工程」— SWE-bench Pro 成为新战场

2025 年大家还在比 MMLU、HellaSwag 这些「学科考试」分数;2026 年 Q2 风向大变,SWE-bench Pro(软件工程实测)、Terminal-Bench(命令行 Agent)、OSWorld(桌面 Agent) 三个工程类基准成为旗舰必争之地:

Claude Opus 4.8:SWE-bench Pro 69.2%(从 4.7 的 64.3% 提升 4.9 个百分点),Terminal-Bench 2.1 74.2%(提升 8.4 个百分点);
GPT-5.3 Codex:SWE-bench Pro 和 Terminal-Bench 同时登顶业界最佳;
MiniMax M2.5:Multi-SWE-Bench 51.3 分第一名,反超 Claude Opus 4.6;
未标记的代码缺陷减少 4 倍(Anthropic 官方数据)。

结论:「能写代码」已经不够,「能在长流程工程里不出错」才是新护城河。这恰好印证了 6/7 那篇《2026 AI Agent 智能体落地元年》中「单 Agent 已是过去式」的判断。

趋势 2:价格战白热化 — DeepSeek 和 MiniMax 重新定义成本曲线

厂商	模型	输入($/M)	输出($/M)	上下文
xAI	Grok 4.1	0.20	0.50	–
DeepSeek	V3.2	0.27	1.10	1M+
MiniMax	M2.5	0.30	–	128K
OpenAI	o4-mini	1.10	4.40	–
Google	Gemini 3.1 Pro	~1.25	~10.00	2M
OpenAI	GPT-5	1.25	10.00	400K
Anthropic	Sonnet 4.6	3.00	15.00	1M
Anthropic	Opus 4.6	15.00	75.00	200K

数据来源:Anthropic / OpenAI / Google / DeepSeek 官方价格页(2026 年 6 月)。注:Claude Opus 4.8 价格未变,仍维持 $5/$25。

一个复杂任务用 GPT-5 成本约 $15,改用 DeepSeek V3.2 仅需约 $0.50——30 倍的成本差,正在彻底重塑 AI 自动化的经济模型。对企业而言:**「先用闭源旗舰跑通业务,再用开源/低价模型降本复制」**已经形成标准两步走。

趋势 3:推理能力「翻倍式」跃迁 — ARC-AGI-2 77% 是分水岭

抽象推理基准 ARC-AGI-2 长期被视为「AGI 试金石」。Gemini 3.1 Pro 的 77.1% 成绩,相对上一代直接翻倍(Gemini 3 Pro 仅约 38%),意味着:

复杂多步规划(规划路径、规划资源、规划时间)在生产环境真正可用;
配合 Deep Think 模式,模型能主动拆解-验证-重试;
Agent 编排的「最小可用单元」从「会说话」升级到「会思考」。

这与 Claude Opus 4.8 引入的「dynamic workflows」(动态工作流)遥相呼应——两家厂商不约而同押注「模型原生支持长流程编排」,而不是靠外部框架硬凑。

趋势 4:中国力量在「硬件脱钩」和「价格战」上同时突破

2026 Q2 国产模型有三个标志性事件:

智谱 GLM-5(2/11,74.5B 参数 MoE):完全使用华为昇腾芯片训练,零美国硬件依赖;Slime RL 技术把幻觉率从 90% 降到 1.2%;在「人类最后考试」(HLE)中以 50.4% 击败 Claude Opus 4.5;
Kimi K2.5(1/27,1T 参数/32B 激活):首个登顶 LMSYS Chatbot Arena 的开源模型;Agent Swarm 模式支持最多 100 个子智能体并行协作;
DeepSeek V3.2(2/12):上下文窗口从 12.8 万 token 扩到 100 万+,价格 $0.27/$1.10,做到「前沿性能 + 极致性价比 + 长上下文」三合一。

这意味着:中国大模型在 2026 年中已经形成「硬件自主 + 开源生态 + 价格优势」三件套,在与 Anthropic / OpenAI 的正面竞争中,第一次拥有「错位优势」。

四、Claude Opus 4.8 深度解读:为什么 41 天就升级

Anthropic 把 Opus 4.7 升级到 4.8 只用了 41 天(行业最快迭代节奏之一),核心原因是 Agent 能力——企业客户把 Opus 用在「翻译 / 深度研究 / 幻灯片生成 / 数据分析」4 大场景时,4.7 在「端到端完成率」上仍有断点。4.8 的关键改进:

维度	4.7 → 4.8 变化	业务影响
SWE-bench Pro	64.3% → 69.2%(+4.9)	复杂工程任务更可靠
Terminal-Bench 2.1	65.8% → 74.2%(+8.4)	命令行 Agent 能力跃升
Online-Mind2Web	~80% → 84%	浏览器/桌面 Agent 行业第一
未标记代码缺陷	基准 → 减少 4 倍	直接降低企业审计成本
Fast 模式价格	–	3x 降价(原 2.5x 速度)
Legal Agent all-pass	–	首个破 10% 的模型
上下文与价格	200K / $5-$25	不变(对客户友好)

早期客户反馈节选(Anthropic 官方):

「Claude Opus 4.8 has noticeably better judgment. In Claude Code, it asks the right questions, catches its own mistakes, pushes back when a plan isn’t sound…」 — Cursor 团队

「Claude Opus 4.8 is the strongest computer-use and browser-agent model we’ve tested, scoring 84% on Online-Mind2Web」 — 某 Browser Agent 厂商

值得关注的配套功能:

dynamic workflows(动态工作流):Claude Code 引入,可并行调度数百个子任务,直接对标 DeepMind 的 Swarm;
可控「effort」参数:用户可以主动调节 Claude 在任务上的「思考预算」,在质量和成本之间精细取舍;
Fast 模式降价:2.5x 速度的输出 token 3x 降价,把「实时 Agent」的 TCO 压到历史最低。

五、对企业/开发者的选型建议(决策树)

场景	首选	备选	理由
复杂软件工程 / 重构	Claude Opus 4.8	GPT-5.3 Codex	SWE-bench Pro 69.2% vs 顶尖
超长文档(法律/财报/论文)	DeepSeek V3.2	Gemini 3.1 Pro	1M+ 上下文 + 极致价格
多模态视频/语音	GPT-Realtime-2	ByteDance Seed 2.0 Pro	实时语音 / 1 小时视频
国产化部署 / 政企	智谱 GLM-5	Kimi K2.5	华为昇腾 / 开源权重
多智能体编排	Claude Opus 4.8 + dynamic workflows	Kimi K2.5 Agent Swarm	原生并行 + 子任务调度
成本敏感型 RAG	DeepSeek V3.2	MiniMax M2.5	$0.27/M input
实时语音客服	GPT-Realtime-2	国产语音模型	70 语输入 / 13 语输出

铂傲智能建议:中小企业的**「数字员工」**实施路径,2026 年中应该走「GPT-5/Opus 4.8 做架构设计 → DeepSeek/GLM-5 做日常执行 → 行业模型做垂直增强」三段式,而不是「all-in 一家」。

六、常见问题(FAQ)

Q1:Claude Opus 4.8 vs GPT-5.5 谁更强? A:截至 2026 年 6 月,Claude Opus 4.8 在编程(SWE-bench Pro 69.2%)、Agent(Super-Agent 端到端完成率)、计算机使用(Online-Mind2Web 84%)三项领先;GPT-5.5 在多模态原生、语音实时、o-series 推理链有优势。整体而言,纯文本代码/Agent 工作流 4.8 更稳,跨模态/多步推理 GPT-5.5 更强。

Q2:开源模型(DeepSeek/Kimi/GLM-5)能替代闭源旗舰吗? A:部分可以。在 RAG、长文档摘要、低成本批处理、Agent 子任务等场景,DeepSeek V3.2、Kimi K2.5、GLM-5 已经达到或超过 GPT-4.5 水平;但在复杂多步推理、跨工具 Agent 编排、超长代码工程上仍有 5-15% 差距。建议混合架构,不要「all-in 开源」。

Q3:GLM-5 用华为昇腾训练,性能真的不掉吗? A:不掉。GLM-5 的 HLE 成绩 50.4% 击败 Claude Opus 4.5(约 47.8%),并在多项代码基准追平 GPT-4.5 水平。Slime RL 技术让幻觉率从 90% 降到 1.2%,这是「硬件脱钩」+「训练算法创新」的双重胜利。

Q4:Claude Opus 4.8 的价格为什么不变? A:Anthropic 明确表示维持 $5/$25 每百万 token 不变,并把 Fast 模式 3x 降价(原 2.5x 速度)。这一定价策略明显是对标 DeepSeek/MiniMax 的低价攻势,用「不涨价 + 高速模式降价」来巩固企业客户。

Q5:2026 下半年还会有哪些「大事件」? A:可预期的发布包括:Gemini 3.5 Pro(6 月,Google I/O 2026 预告)、GPT-5.6(泄露中,可能 Q3)、DeepSeek V4(万亿参数 MoE,Q3-Q4)、Llama 5(Meta,可能 Q3)、Anthropic Mythos 1 预览版(2026 中下旬)。铂傲智能将持续追踪并发布解读。

七、参考资料(References)

官方发布与基准

Anthropic:Introducing Claude Opus 4.8 — https://www.anthropic.com/news/claude-opus-4-8
Anthropic:Claude Opus 4.8 System Card — https://www.anthropic.com/claude-opus-4-8-system-card
OpenAI:GPT-5.3 Codex 发布说明 — openai.com/index/gpt-5-3-codex
Google:Gemini 3.1 Pro 发布博客 — blog.google/products/gemini/gemini-3-1-pro
DeepSeek:V3.2 上下文扩展技术报告 — github.com/deepseek-ai/DeepSeek-V3.2
智谱 AI:GLM-5 技术报告 — zhipuai.cn/glm-5
月之暗面:Kimi K2.5 Agent Swarm — kimi.moonshot.cn

第三方评测与媒体

TechCrunch(2026-05-28):Anthropic releases Opus 4.8 with new ‘dynamic workflow’ tool
Codersera:Claude Opus 4.8 Benchmarks, Pricing & What’s New 2026
AIMadeTools:Claude Opus 4.8 Complete Guide
无矩 AI(2026-06):2026 年 6 月 AI 大模型最新进展全景盘点
知乎:Claude / GPT / Gemini 三大模型怎么选?(2026 最新)