跳转至内容
  • 0 赞同
    1 帖子
    14 浏览
    R
    巴斯克大学与卡迪夫大学研究团队在一项新研究中,对 GPT-4o-mini、Gemini 2.5 Flash、Claude 3.5 Haiku、Llama 4 Maverick、Command-R、Magistral、DeepSeek 与 Qwen 共 8 款主流大型语言模型进行了测试,构建了涵盖 11 大类、66 个子话题、共 31,680 道开放式文化问题的数据集,以 24 种语言提示模型作答并强制要求指定具体国家或地区。结果显示,八款模型中有五款将日本列为"母语国以外最常引用的国家",仅两款偏向美国;GPT-4o-mini 在输出中引用日本高达 944 次。即便以孟加拉语、加泰罗尼亚语、豪萨语或斯瓦希里语提问,答案依然频繁指向日本,说明这一偏向并非由用户引入,而是深植于模型本身。 研究团队进一步对比基础预训练模型与面向消费者发布的指令微调模型后发现,基础模型对各国文化的引用分布相对均匀;偏向日本与美国的集中程度在监督微调(SFT)阶段出现骤然坍缩,后续的指令对齐仅能边际性缓解,无法恢复基础模型的均衡分布——研究者据此认定,偏向是在人类标注者指定"优质回答"示例时被系统性训入的,与原始互联网数据对日本内容的天然占比关系不大。此外,研究还发现低资源语言(如安哈拉语、巽他语)的模型输出高度自我指涉、拒绝回答比例更高;而英语、中文、俄语等高资源语言则产生更多元的地理引用。作者警告,若模型持续偏向特定文化视角,“可能为来自其他文化背景的用户提供不充分甚至不恰当的回答”,而这对如今 AI 在社会、职场与文化生活中的广泛渗透而言,影响不可小觑。 Cybernews
  • 0 赞同
    1 帖子
    17 浏览
    R
    腾讯混元 5 月 7 日公布数据,Hy3 preview 自上线以来 Token 调用总量已超上一代模型 Hy2 的 10 倍,其中代码与智能体场景增长尤为突出,在腾讯旗下 WorkBuddy、Codebuddy 及 Qclaw 类应用中的调用增幅更达 16.5 倍。此外,来自 OpenRouter 的公开数据显示,Hy3 preview 在过去一周的 Token 调用量已登上周榜总榜及市场占有率双料榜首,编程与工具调用场景调用量同样排名第一。腾讯混元负责人表示,Hy3 preview 在 OpenRouter 开启限免活动的初衷是搜集真实场景反馈,所收到的正负面意见将直接指导模型后续迭代方向。 新浪科技
  • 0 赞同
    1 帖子
    17 浏览
    R
    据《金融时报》援引知情人士报道,Meta 正在研发一款高度个性化的智能体(agentic)AI 助手,底层模型为公司内部新建的 Muse Spark,目前处于内部员工小范围测试阶段。该助手的产品目标对标 OpenAI 旗下的 OpenClaw——后者可在极少人工干预的情况下,跨硬件与软件工具自主执行任务。与此同时,据 The Information 报道,Meta 还在独立训练一个内部代号为"Hatch"的 AI 智能体,同样以 OpenClaw 为参照,目标是在今年 6 月底前完成内部测试;此外,Meta 计划将另一款面向购物场景的智能体工具整合进 Instagram,并力争在第四季度前正式上线。 受此影响,Meta 本季度再度上调全年资本支出预测,将 2026 年 capex 指引区间提升至 1250 亿至 1450 亿美元,显示其在 AI 基础设施上的投入力度持续加码,但也引发了部分投资者对高额支出节奏的担忧。Meta 未就上述报道向媒体置评。 FT | Reuters
  • 0 赞同
    1 帖子
    29 浏览
    R
    开发者 anemll 在社交平台展示一项实验:在 iPhone 上运行约 400B 参数的大语言模型,推理速度约为 0.6 token/s。演示显示该模型可在移动设备上完成推理流程,但依赖量化与分块加载等技术实现。相关帖子未披露具体设备型号与完整配置细节,实验主要用于展示可行性,作者未就实际应用场景作进一步说明。 (X (formerly Twitter)) 该实验基于 MoE(混合专家)架构,仅激活部分参数参与计算,并结合 SSD 流式加载权重以突破内存限制。社区讨论认为,这类方案虽验证“本地运行超大模型”的可能性,但在速度、功耗与实用性上仍存在明显瓶颈,距离实际落地仍有差距。与此同时,随着端侧 AI 能力持续提升,是否会推动 AI 从云端向本地迁移,也成为行业关注焦点。 (Hacker News) X
  • 0 赞同
    1 帖子
    29 浏览
    R
    据《21世纪经济报道》报道,2026 年 1 至 2 月新发 AI 岗位占新经济整体岗位量的 26.23%,而 2025 年同期仅为 2.29%,同比增长约 12 倍,显著高于行业整体 12.77% 的增速。报告显示,新金融科技领域 AI 岗位渗透率达 13.76%,互联网、新能源汽车、通信等行业均超过 11%。企业侧招聘需求持续攀升,校招市场中 AI 相关岗位起薪已出现月薪 7 万元的案例,用人方对算法、模型与工程能力的复合型人才需求明显增强。(21经济网) 与此同时,AI 正加速重塑就业结构与人才流动路径。背景上,大模型与智能体应用快速落地,推动企业从“尝试 AI”转向“全面引入 AI”,带来岗位需求爆发。另一方面,高薪与人才紧缺并存,跨专业转型与提前布局成为趋势,大学生与职场人纷纷涌入相关赛道。业内普遍认为,随着 AI 商业化深入推进,相关岗位需求仍将持续增长,但人才供给结构性失衡问题短期内难以缓解。(21经济网) 21世纪经济报道 https://www.21jingji.com/article/20260503/herald/3e89bfb784cb4211f226939960e7da28.html
  • 0 赞同
    1 帖子
    38 浏览
    R
    中央网信办近日印发通知,在全国范围内部署开展为期 4 个月的"清朗·整治 AI 应用乱象"专项行动,分两个阶段推进。第一阶段"清朗·AI 应用服务典型违规问题"聚焦技术源头,重点整治 7 类问题:未按《生成式人工智能服务管理暂行办法》履行大模型备案登记(“应备未备”);AI 平台安全审核能力不足,生成内容包含违法链接;大模型训练语料存在违法内容或未经授权数据;AI 数据投毒(含 GEO 恶意营销);生成合成内容标识落实不到位(含违规"去标识"工具);滥用 AI 实施网络攻击或未授权提供换脸拟声服务;开源模型社区缺乏身份认证与内容审核机制。第二阶段"清朗·整治 AI 信息内容乱象"聚焦内容治理,重点整治另外 7 类问题:利用 AI “魔改"经典文化或批量生成价值空洞的"数字泔水”;生成传播涉时事政治、突发事件等领域谣言或假冒党政媒体发假新闻;利用换脸换声假冒公众人物或"复活逝者";制作暴力血腥、低俗擦边内容;侵害未成年人权益(含"邪典"视频);通过 AI 托管技术运营虚假账号、刷量控评、制造虚假舆论;提供套壳 AI 应用或色情陪聊、"一键脱衣"等违规功能服务。 网信办有关负责人强调,各地网信部门须督导平台深入自查自纠,全面排查问题漏洞,完善长效治理机制,并切实履行属地管理责任;依法处置处罚违规账号、MCN 机构和网站平台。此次行动是中国近年来规模最大、覆盖 AI 全链路的一次专项整治,从模型训练数据合规、大模型备案到内容生成与传播、开源模型安全管理,均被纳入监管范围,且同时对企业方与个人传播者双向追责。 新华网 | 人民网 | 央视新闻 | 澎湃新闻
  • 0 赞同
    1 帖子
    32 浏览
    R
    小米 MiMo 团队 4 月 22 日发布并即将开源 MiMo-V2.5 系列模型,覆盖 V2.5(310B 总参数 / 15B 激活)与 V2.5-Pro(1.02T 总参数 / 42B 激活)两档稀疏 MoE 架构,原生支持文本、图像、视频、音频四模态,最长上下文 1M token。模型基于 MiMo-V2-Flash 主干扩展专属视觉编码器(729M 参数 ViT,28 层中 24 层 SWA + 4 层全注意力)与音频编码器(261M 参数,从 MiMo-Audio 权重初始化),保留 Hybrid Attention 5:1 比例与 128 滑动窗口设计——KV 缓存较常规模型缩减近 6 倍。预训练总量约 48T token、采用 FP8 混合精度,Post-train 阶段上下文从 32K 渐进扩展至 1M,并引入 SFT、大规模 Agentic RL 与 Multi-Teacher On-Policy Distillation(MOPD)训练。MiMo-V2.5-Pro 已在 API 平台、AI Studio 等界面全量上线,价格不变,模型 tag 替换为 mimo-v2.5-pro 即可调用。 实测层面,团队公开三项长程任务结果以演示 V2.5-Pro 的"线束感知"能力:在北京大学《编译原理》课设的 SysY 编译器 Rust 实现任务中(人类 PKU CS 学生通常需数周完成),模型用 4.3 小时、672 次工具调用从零完成全部六层(词法/语法分析、AST、Koopa IR、RISC-V 后端、性能优化),通过课程隐藏测试集 233/233 满分;冷启动首次编译即过 137 项(59%),第 512 轮重构回退两项后自主诊断恢复。第二项任务从几句简短 prompt 出发,经 11.5 小时、1,868 次工具调用,端到端生成 8,192 行代码的桌面视频编辑器,含多轨时间线、剪辑、交叉淡入、音频混合与导出。第三项则将 V2.5-Pro 接入 ngspice 仿真闭环(以 Claude Code 作为线束),约 1 小时内为 TSMC 180nm 工艺设计并优化 FVF-LDO 模拟电路,相位裕度等四项指标较初稿提升一个数量级。在 ClawEval 上,V2.5-Pro 以约 70K token/轨迹达到 64% Pass^3,token 消耗较 Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4 同档分别低 40%–60%。 Xiaomi MiMo | HuggingFace | 小米 MiMo API 平台 https://mimo.xiaomi.com/mimo-v2-5-pro/ https://huggingface.co/XiaomiMiMo/MiMo-V2.5 https://platform.xiaomimimo.com/docs/zh-CN/news/v2.5-open-sourced
  • 0 赞同
    1 帖子
    44 浏览
    R
    财经播客《张小珺商业访谈录》4 月 24 日发布时长 3 小时 37 分的第 138 期,嘉宾为小米大模型团队负责人、MiMo-V2 系列主导研究员罗福莉——前供职阿里达摩院与 DeepSeek,这是她的首次公开访谈。罗福莉以春节期间使用 OpenClaw 的三天亲历为主线,描述了一次彻底改变她对 AI 范式判断的体验:第一天凌晨两点装好、用到天亮,感受到框架"有灵魂"——每轮对话前拼入当前时间、精心编排 Context,让模型主动提醒她早点睡觉;第二天她开始把"框架做不成的日常任务"交给它,从激发团队好奇心到整个组织架构设计,它都能形成体系化输出并沉淀为 Skill;第三天她尝试把研究任务交给它——构建一个多轮交互的 User Agent 用于 Post-train 数据合成,原本预计需要相当长时间,结果一两个小时就做出来了。“三天,它每天都给我额外的惊喜”,罗福莉称。此后她用强制要求团队"第二天 OpenClaw 对话次数不超过 100 轮可以 Quit"的方式推动团队密集使用,尽管她从未打算真正考核,但两天内团队群消息 10 分钟不看就 99+,大家开始自驱思考怎么让模型与框架互相进化。 基于这段体验,罗福莉给出了她对当前 AI 竞争格局的几个核心判断:Anthropic 的路径是正确的,已是国内业界共识;大模型竞争进入"第二幕",从预训练主导的 Chat 时代转向后训练(Post-training)主导的 Agent 时代,做到接近 Claude Opus 4.6 水准的入场券是 1T 以上参数量的基座模型;算力分配比应从 Chat 时代的研究:预训练:后训练 = 3:悬殊:1,调整为约 3:1:1,预训练与后训练用卡比将趋向 1:1,“顶尖团队应该都是 1:1 了”;国内在预训练层面的代差已基本消除,接下来两三个月将是考验团队研究水平与技术敏捷程度的关键窗口。组织层面,罗福莉在小米团队推行无职级、无固定分组的平权管理——“任何层级都是对创造力的规范和约束”——100 人团队中真正投入当代模型迭代的不超过二三十人,她预计 2 年内 AGI 将实质性到来,届时大多数人的工作模式将被颠覆。 Bilibili | Apple Podcasts | 小宇宙 https://podcasts.apple.com/cn/podcast/138-对罗福莉3-5小时访谈-ai范式已然巨变-openclaw-agent范式很吃后训练-卡的分配-组织平权/id1634356920?i=1000763358624
  • 0 赞同
    1 帖子
    42 浏览
    R
    DeepSeek 于 4 月 24 日发布并同步开源 V4 预览版,分为 V4-Pro(1.6T 总参数、49B 激活)与 V4-Flash(284B 总参数、13B 激活)两档,均为 MoE 架构并原生支持 100 万(1M)token 上下文。官方称 V4-Pro 在 Agentic Coding 评测中达到当前开源模型最佳水平,已被 DeepSeek 内部用作日常 Agentic Coding 主力,反馈使用体验优于 Claude Sonnet 4.5、交付质量接近 Opus 4.6 非思考模式,仍落后于 Opus 4.6 思考模式;世界知识仅稍逊于 Gemini-Pro-3.1;数学、竞赛代码评测超越所有已公开评测的开源模型,Codeforces 评分 3206 高于 GPT-5.4。V4-Flash 推理能力接近 Pro 版但更快更经济,简单 Agent 任务与 Pro 版相当、复杂任务仍有差距。 技术上 V4 提出 token 维度压缩注意力机制并结合 DSA 稀疏注意力(DeepSeek Sparse Attention),官方称在 1M 上下文下 V4-Pro 单 token 推理 FLOPs 仅为 V3.2 的 27%、KV Cache 仅为 10%。API 层面 base_url 不变,model 改为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用,同时支持 OpenAI ChatCompletions 与 Anthropic 双协议;定价上 V4-Pro 每百万 token 输出 24 元、V4-Flash 输出 2 元,远低于同档闭源模型。原有的 deepseek-chat 与 deepseek-reasoner 两个旧模型名将于 2026 年 7 月 24 日下线,当前分别指向 V4-Flash 的非思考与思考模式。本次发布与 OpenAI 的 GPT-5.5 选择同日上线,权重与技术报告均已在 HuggingFace、ModelScope 同步开源。 DeepSeek API Docs | IT之家 | 36氪 | 观察者网
  • 0 赞同
    1 帖子
    32 浏览
    R
    Anthropic 于 4 月 23 日发布工程复盘,将过去一个月用户反馈的 Claude Code 表现下降归因于三处独立变更,所有问题已于 4 月 20 日 v2.1.116 前修复,API 不受影响。三处问题分别是:3 月 4 日为缓解 UI 卡顿将默认推理强度从 high 降为 medium(4 月 7 日回滚);3 月 26 日的一项缓存优化存在 bug,本应仅在会话闲置一小时后清除一次旧的思考内容,实际却在每个 turn 都重复清除,使 Claude 显得健忘、重复,并触发更多缓存未命中、加速消耗用户额度(4 月 10 日修复);4 月 16 日为压缩 Opus 4.7 冗长输出,在系统提示中加入"工具调用间 ≤25 词、最终响应 ≤100 词"的硬性长度限制,与其他 prompt 改动叠加后伤害了编码质量(4 月 20 日回滚)。 Anthropic 表示,由于三处变更覆盖不同流量切片、节奏各异,整体表现为"广泛但不一致的退化",加之内部 dogfooding 与早期自动评估均未能复现,定位过程耗时较长。受此影响,公司宣布的改进包括:扩大内部员工使用与公众完全一致的 Claude Code 公开构建版本的比例;对系统提示改动加每模型独立 evals 与逐行 ablation 审计;对可能权衡智能的改动设置观察期与分阶段灰度。Anthropic 同时致谢通过 /feedback 命令与公开可复现示例反馈问题的用户,并于 4 月 23 日重置全部订阅用户的使用额度作为补偿。 Anthropic Engineering
  • 0 赞同
    1 帖子
    29 浏览
    R
    OpenAI 于 4 月 23 日发布新一代模型 GPT-5.5,自称是"迄今最聪明、最直观易用"的模型,主打智能体化的代码、研究与计算机操作能力。该模型当日起在 ChatGPT 和 Codex 内向 Plus、Pro、Business、Enterprise 用户推送,GPT-5.5 Pro 同步开放给 Pro 及以上付费用户;4 月 24 日,OpenAI 进一步将 GPT-5.5 与 GPT-5.5 Pro 上线 API。距上一代 GPT-5.4 正式发布仅约两个月。 据 OpenAI 介绍,GPT-5.5 在保持与 GPT-5.4 相同每 token 延迟的前提下,完成同等 Codex 任务消耗的 token 大幅减少,在 Artificial Analysis 编码指数上达到 SOTA,但成本仅为同类前沿编码模型的一半。背景上正值 Anthropic 的 Mythos 模型因被未授权访问引发争议,本次发布配套部署了更严格的网络风险分类器,并经过近 200 家早期合作伙伴测试与内外部红队评估,针对网络安全与生物风险做了专项测试。OpenAI 首席研究官 Mark Chen 称该模型在科研与药物发现工作流上有"实质性提升",总裁 Greg Brockman 则将其定位为通向 OpenAI"超级 App"愿景的一步——后者计划把 ChatGPT、Codex 与 AI 浏览器整合为统一服务。 OpenAI | TechCrunch | Bloomberg https://techcrunch.com/2026/04/23/openai-chatgpt-gpt-5-5-ai-model-superapp/
  • 0 赞同
    1 帖子
    27 浏览
    R
    OpenAI于4月23日正式推出最新模型GPT-5.5,定位为迄今最智能、最直观的模型,在代码编写与调试、在线研究、数据分析、文档与表格处理及软件操控等方面表现突出。 用户可将复杂、多步骤任务直接交给模型,由其自主规划、调用工具、核查结果并持续推进,无需逐步引导。  此次发布距GPT-5.4上线仅六周,凸显了前沿AI实验室在争夺企业客户方面的激烈竞争。 尽管定价高于GPT-5.4,但GPT-5.5在Token效率上有显著提升,实际响应速度与前代持平。  GPT-5.5现已向Plus、Pro、Business及Enterprise订阅用户开放,API接入将在完成网络安全防护部署后随即跟进。  OpenAI
  • 腾讯发布 Hunyuan Hy3:新一代基础模型升级亮相

    讨论 tencent hunyuan 大模型 hy3
    1
    0 赞同
    1 帖子
    38 浏览
    R
    Tencent 近日发布 Hunyuan Hy3 预览版本,这是其混元大模型体系的重要升级版本,被定位为当前最强基础模型之一。该模型在架构上采用混合专家(MoE)设计,总参数规模约 2950 亿,并通过动态激活机制提升计算效率。 官方介绍称,Hy3 在复杂推理、代码生成、指令遵循以及 Agent 能力方面均有明显增强,并针对长上下文任务进行了优化,支持更高效的多轮交互与工具调用能力。 该模型也是腾讯在重构其训练与强化学习体系后推出的首个版本,强调“更实用的模型能力”而非单纯规模扩展,并已面向开发者与生态进行开放测试。 腾讯混元
  • 0 赞同
    1 帖子
    39 浏览
    R
    长期坚持不引入外部资金的中国AI新创企业DeepSeek,近日首次启动对外融资,目标估值已从最初100亿美元一路攀升至逾200亿美元。据《The Information》报道,腾讯与阿里巴巴正积极参与投资谈判。 此次融资转变背后,是DeepSeek面临的多重压力:核心研究人员相继被国内大厂高薪挖走,新一代旗艦模型V4屡遭推迟,算力成本持续攀升。外部资金将主要用于扩充算力资源与稳定技术团队。 对腾讯与阿里而言,入股DeepSeek兼具防御与进攻双重战略意义,既可对冲自研大模型风险,也能开辟深度技术合作通道。目前谈判仍在进行中,最终估值与融资规模尚未确定。