Anthropic 发布 Claude Mythos Preview：能力全面领先，但暂不对外开放

ref

编程能力评测

评测项目	Claude Mythos Preview	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro
SWE-bench Verified	93.9%	80.8%	—	80.6%
SWE-bench Pro	77.8%	53.4%	57.7%	54.2%
SWE-bench 多语言	87.3%	77.8%	—	—
SWE-bench 多模态	59%	27.1%	—	—
Terminal-Bench 2.0*	82%	65.4%	75.1%	68.5%

列表推理与知识评测

评测项目	Claude Mythos Preview	Claude Opus 4.6	GPT-5.4	Gemini 3.1 Pro
GPQA Diamond	94.5%	91.3%	92.8%	94.3%
MMMLU	92.7%	91.1%	—	92.6%–93.6%
USAMO（数学竞赛）	97.6%	42.3%	95.2%	74.4%
GraphWalks BFS 256K-1M	80.0%	38.7%	21.4%	—
HLE（无工具）	56.8%	40.0%	39.8%	44.4%
HLE（有工具）	64.7%	53.1%	52.1%	51.4%
CharXiv 推理（无工具）	86.1%	61.5%	-	-
CharXiv 推理（有工具）	93.2%	78.9%	-	-
OSWorld	79.6%	72.7%	75.0%	—

BrowseComp 测试时算力扩展

图表显示，随着允许模型使用的 token 总量增加（借助上下文压缩技术），BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%，远优于其他模型。

事实性基准测试得分

在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中，Claude Mythos Preview（橙红色）在"正确"率上均大幅领先（分别达 60.1%、70.7%、70.8%），同时"不确定"和"错误"比例更低，说明其校准性优于此前所有模型。

关于发布计划的声明

Anthropic不打算将 Claude Mythos Preview 面向公众全面开放，但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的，也为了此类高能力模型所能带来的无数其他价值。为此，Anthropic需要在开发网络安全（及其他领域）防护措施上取得进展，以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制，从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。

WeLinux

Anthropic 发布 Claude Mythos Preview：能力全面领先，但暂不对外开放