跳转至内容
  • 版块
  • 最新
  • 标签
  • 热门
  • 世界
  • 用户
  • 群组
皮肤
  • 浅色
  • Brite
  • Cerulean
  • Cosmo
  • Flatly
  • Journal
  • Litera
  • Lumen
  • Lux
  • Materia
  • Minty
  • Morph
  • Pulse
  • Sandstone
  • Simplex
  • Sketchy
  • Spacelab
  • United
  • Yeti
  • Zephyr
  • 深色
  • Cyborg
  • Darkly
  • Quartz
  • Slate
  • Solar
  • Superhero
  • Vapor

  • 默认(不使用皮肤)
  • 不使用皮肤
折叠

WeLinux

  1. 主页
  2. 版块
  3. 讨论
  4. DeepSeek 发布"视觉原语推理"技术报告:以坐标点替代模糊语言,计数与空间推理对齐 GPT-5.4

DeepSeek 发布"视觉原语推理"技术报告:以坐标点替代模糊语言,计数与空间推理对齐 GPT-5.4

已定时 已固定 已锁定 已移动 讨论
aideepseek多模态视觉推理开源
1 帖子 1 发布者 28 浏览 1 关注中
  • 从旧到新
  • 从新到旧
  • 最多赞同
回复
  • 在新帖中回复
登录后回复
此主题已被删除。只有拥有主题管理权限的用户可以查看。
  • R 离线
    R 离线
    ref
    编写于 最后由 编辑
    #1

    DeepSeek 4 月 30 日在 GitHub 发布技术报告《Thinking with Visual Primitives》,提出一种新的多模态推理范式——不再依赖纯文字描述或更高分辨率图像,而是在模型的推理轨迹中直接嵌入空间标记(点坐标与边界框)作为"最小思维单元",以此弥合所谓"Reference Gap":自然语言在描述密集空间布局时固有的歧义性,往往导致模型在推理过程中出现逻辑崩塌与幻觉。类比人类用手指逐个数数或在迷宫中用指尖描绘路径,该框架让模型"边指边推理",将抽象语言概念锚定到具体物理坐标。模型底层架构基于 DeepSeek-V4-Flash,将每 4 个视觉 token 的 KV Cache 压缩为单一条目,大幅降低图像 token 消耗;在计数与空间推理基准上,该紧凑规模模型的得分与 GPT-5.4、Claude Sonnet 4.6、Gemini 3 Flash 相当——团队特别注明这些分数仅覆盖与本研究直接相关的维度子集,不代表模型的整体能力。

    模型权重将在未来整合进 DeepSeek 基础模型后一并开源,近期计划先公开内部基准与部分冷启动数据;代码以 MIT 许可证授权。这是 DeepSeek 在 V4 发布后一周内首次正式披露多模态方向的技术进展,也与此前社区观察到识图模式(Vision)灰度上线相互印证——尽管二者聚焦层面不同,本报告更偏向"推理时空间锚定机制"这一基础研究课题。

    GitHub - deepseek-ai/Thinking-with-Visual-Primitives

    Link Preview Image
    Build software better, together

    GitHub is where people build software. More than 150 million people use GitHub to discover, fork, and contribute to over 420 million projects.

    favicon

    GitHub (github.com)

    1 条回复 最后回复
    0

    你好!看起来您对这段对话很感兴趣,但您还没有一个账号。

    厌倦了每次访问都刷到同样的帖子?您注册账号后,您每次返回时都能精准定位到您上次浏览的位置,并可选择接收新回复通知(通过邮件或推送通知)。您还能收藏书签、为帖子顶,向社区成员表达您的欣赏。

    有了你的建议,这篇帖子会更精彩哦 💗

    注册 登录
    回复
    • 在新帖中回复
    登录后回复
    • 从旧到新
    • 从新到旧
    • 最多赞同


    • 登录

    • 没有帐号? 注册

    • 登录或注册以进行搜索。
    Powered by NodeBB Contributors
    • 第一个帖子
      最后一个帖子
    0
    • 版块
    • 最新
    • 标签
    • 热门
    • 世界
    • 用户
    • 群组