开发者 anemll 在社交平台展示一项实验:在 iPhone 上运行约 400B 参数的大语言模型,推理速度约为 0.6 token/s。演示显示该模型可在移动设备上完成推理流程,但依赖量化与分块加载等技术实现。相关帖子未披露具体设备型号与完整配置细节,实验主要用于展示可行性,作者未就实际应用场景作进一步说明。 (X (formerly Twitter))
该实验基于 MoE(混合专家)架构,仅激活部分参数参与计算,并结合 SSD 流式加载权重以突破内存限制。社区讨论认为,这类方案虽验证“本地运行超大模型”的可能性,但在速度、功耗与实用性上仍存在明显瓶颈,距离实际落地仍有差距。与此同时,随着端侧 AI 能力持续提升,是否会推动 AI 从云端向本地迁移,也成为行业关注焦点。 (Hacker News)
X