Anthropic 发布 Claude Mythos Preview:能力全面领先,但暂不对外开放
-
- 编程能力评测
评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro SWE-bench Verified 93.9% 80.8% — 80.6% SWE-bench Pro 77.8% 53.4% 57.7% 54.2% SWE-bench 多语言 87.3% 77.8% — — SWE-bench 多模态 59% 27.1% — — Terminal-Bench 2.0* 82% 65.4% 75.1% 68.5%
- 列表推理与知识评测
评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro GPQA Diamond 94.5% 91.3% 92.8% 94.3% MMMLU 92.7% 91.1% — 92.6%–93.6% USAMO(数学竞赛) 97.6% 42.3% 95.2% 74.4% GraphWalks BFS 256K-1M 80.0% 38.7% 21.4% — HLE(无工具) 56.8% 40.0% 39.8% 44.4% HLE(有工具) 64.7% 53.1% 52.1% 51.4% CharXiv 推理(无工具) 86.1% 61.5% - - CharXiv 推理(有工具) 93.2% 78.9% - - OSWorld 79.6% 72.7% 75.0% —
- BrowseComp 测试时算力扩展
图表显示,随着允许模型使用的 token 总量增加(借助上下文压缩技术),BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%,远优于其他模型。
- 事实性基准测试得分
在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中,Claude Mythos Preview(橙红色)在"正确"率上均大幅领先(分别达 60.1%、70.7%、70.8%),同时"不确定"和"错误"比例更低,说明其校准性优于此前所有模型。
- 关于发布计划的声明
Anthropic不打算将 Claude Mythos Preview 面向公众全面开放,但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的,也为了此类高能力模型所能带来的无数其他价值。为此,Anthropic需要在开发网络安全(及其他领域)防护措施上取得进展,以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制,从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。