跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠

WeLinux

  1. 主页
  2. 版块
  3. 讨论
  4. Anthropic 发布 Claude Mythos Preview:能力全面领先,但暂不对外开放

Anthropic 发布 Claude Mythos Preview:能力全面领先,但暂不对外开放

已定时 已固定 已锁定 已移动 讨论
anthropic
1 帖子 1 发布者 60 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • R 离线
    R 离线
    ref
    写于 最后由 ref 编辑
    #1
    1. 编程能力评测
    评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro
    SWE-bench Verified 93.9% 80.8% — 80.6%
    SWE-bench Pro 77.8% 53.4% 57.7% 54.2%
    SWE-bench 多语言 87.3% 77.8% — —
    SWE-bench 多模态 59% 27.1% — —
    Terminal-Bench 2.0* 82% 65.4% 75.1% 68.5%

    1. 列表推理与知识评测
    评测项目 Claude Mythos Preview Claude Opus 4.6 GPT-5.4 Gemini 3.1 Pro
    GPQA Diamond 94.5% 91.3% 92.8% 94.3%
    MMMLU 92.7% 91.1% — 92.6%–93.6%
    USAMO(数学竞赛) 97.6% 42.3% 95.2% 74.4%
    GraphWalks BFS 256K-1M 80.0% 38.7% 21.4% —
    HLE(无工具) 56.8% 40.0% 39.8% 44.4%
    HLE(有工具) 64.7% 53.1% 52.1% 51.4%
    CharXiv 推理(无工具) 86.1% 61.5% - -
    CharXiv 推理(有工具) 93.2% 78.9% - -
    OSWorld 79.6% 72.7% 75.0% —

    1. BrowseComp 测试时算力扩展

    图表显示,随着允许模型使用的 token 总量增加(借助上下文压缩技术),BrowseComp 准确率持续提升。Claude Mythos Preview 在仅用约 0.2M token 时便达到 84.9%–86.9%,远优于其他模型。


    1. 事实性基准测试得分

    在 100Q-Hard、Simple-QA-Verified、AA-Omniscience 三项事实性基准测试中,Claude Mythos Preview(橙红色)在"正确"率上均大幅领先(分别达 60.1%、70.7%、70.8%),同时"不确定"和"错误"比例更低,说明其校准性优于此前所有模型。


    1. 关于发布计划的声明

    Anthropic不打算将 Claude Mythos Preview 面向公众全面开放,但最终目标是让用户能够安全地大规模部署 Mythos 级别的模型——不仅用于网络安全目的,也为了此类高能力模型所能带来的无数其他价值。为此,Anthropic需要在开发网络安全(及其他领域)防护措施上取得进展,以检测并拦截模型最危险的输出内容。Anthropic计划随即将推出的 Claude Opus 新模型一同发布新的安全防护机制,从而在一个风险级别低于 Mythos Preview 的模型上持续改进和完善这些机制。

    1 条回复 最后回复
    👍 👎 😠
    0

    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

    有了你的建议,这篇帖子会更精彩哦 💗

    注册 登录
    回复
    • 在新帖中回复
    登录后回复
    • 从旧到新
    • 从新到旧
    • 最多赞同


    • 登录

    • 没有帐号? 注册

    • 登录或注册以进行搜索。
    Powered by NodeBB Contributors
    • 第一个帖子
      最后一个帖子
    0
    • 版块
    • 最新
    • 标签
    • 热门
    • 世界
    • 用户
    • 群组