<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[Anthropic 发布 Claude Mythos Preview：能力全面领先，但暂不对外开放]]></title><description><![CDATA[<ol>
<li><strong>编程能力评测</strong></li>
</ol>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>评测项目</th>
<th>Claude Mythos Preview</th>
<th>Claude Opus 4.6</th>
<th>GPT-5.4</th>
<th>Gemini 3.1 Pro</th>
</tr>
</thead>
<tbody>
<tr>
<td>SWE-bench Verified</td>
<td><strong>93.9%</strong></td>
<td>80.8%</td>
<td>—</td>
<td>80.6%</td>
</tr>
<tr>
<td>SWE-bench Pro</td>
<td><strong>77.8%</strong></td>
<td>53.4%</td>
<td>57.7%</td>
<td>54.2%</td>
</tr>
<tr>
<td>SWE-bench 多语言</td>
<td><strong>87.3%</strong></td>
<td>77.8%</td>
<td>—</td>
<td>—</td>
</tr>
<tr>
<td>SWE-bench 多模态</td>
<td><strong>59%</strong></td>
<td>27.1%</td>
<td>—</td>
<td>—</td>
</tr>
<tr>
<td>Terminal-Bench 2.0*</td>
<td><strong>82%</strong></td>
<td>65.4%</td>
<td>75.1%</td>
<td>68.5%</td>
</tr>
</tbody>
</table>
<hr />
<ol start="2">
<li><strong>列表推理与知识评测</strong></li>
</ol>
<table class="table table-bordered table-striped">
<thead>
<tr>
<th>评测项目</th>
<th>Claude Mythos Preview</th>
<th>Claude Opus 4.6</th>
<th>GPT-5.4</th>
<th>Gemini 3.1 Pro</th>
</tr>
</thead>
<tbody>
<tr>
<td>GPQA Diamond</td>
<td><strong>94.5%</strong></td>
<td>91.3%</td>
<td>92.8%</td>
<td>94.3%</td>
</tr>
<tr>
<td>MMMLU</td>
<td><strong>92.7%</strong></td>
<td>91.1%</td>
<td>—</td>
<td>92.6%–93.6%</td>
</tr>
<tr>
<td>USAMO（数学竞赛）</td>
<td><strong>97.6%</strong></td>
<td>42.3%</td>
<td>95.2%</td>
<td>74.4%</td>
</tr>
<tr>
<td>GraphWalks BFS 256K-1M</td>
<td><strong>80.0%</strong></td>
<td>38.7%</td>
<td>21.4%</td>
<td>—</td>
</tr>
<tr>
<td>HLE（无工具）</td>
<td><strong>56.8%</strong></td>
<td>40.0%</td>
<td>39.8%</td>
<td>44.4%</td>
</tr>
<tr>
<td>HLE（有工具）</td>
<td><strong>64.7%</strong></td>
<td>53.1%</td>
<td>52.1%</td>
<td>51.4%</td>
</tr>
<tr>
<td>CharXiv 推理（无工具）</td>
<td><strong>86.1%</strong></td>
<td>61.5%</td>
<td>-</td>
<td>-</td>
</tr>
<tr>
<td>CharXiv 推理（有工具）</td>
<td><strong>93.2%</strong></td>
<td>78.9%</td>
<td>-</td>
<td>-</td>
</tr>
<tr>
<td>OSWorld</td>
<td><strong>79.6%</strong></td>
<td>72.7%</td>
<td>75.0%</td>
<td>—</td>
</tr>
</tbody>
</table>
<hr />
<ol start="3">
<li><strong>BrowseComp 测试时算力扩展</strong></li>
</ol>
<p dir="auto">图表显示，随着允许模型使用的 token 总量增加（借助上下文压缩技术），BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%，远优于其他模型。</p>
<hr />
<ol start="4">
<li><strong>事实性基准测试得分</strong></li>
</ol>
<p dir="auto">在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中，Claude Mythos Preview（橙红色）在"正确"率上均大幅领先（分别达 60.1%、70.7%、70.8%），同时"不确定"和"错误"比例更低，说明其校准性优于此前所有模型。</p>
<hr />
<ol start="5">
<li><strong>关于发布计划的声明</strong></li>
</ol>
<blockquote>
<p dir="auto">Anthropic<strong>不打算</strong>将 Claude Mythos Preview 面向公众全面开放，但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的，也为了此类高能力模型所能带来的无数其他价值。为此，Anthropic需要在开发网络安全（及其他领域）防护措施上取得进展，以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制，从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。</p>
</blockquote>
]]></description><link>https://welinux.com//topic/2/anthropic-发布-claude-mythos-preview-能力全面领先-但暂不对外开放</link><generator>RSS for Node</generator><lastBuildDate>Mon, 18 May 2026 20:30:26 GMT</lastBuildDate><atom:link href="https://welinux.com//topic/2.rss" rel="self" type="application/rss+xml"/><pubDate>Wed, 08 Apr 2026 17:17:58 GMT</pubDate><ttl>60</ttl></channel></rss>