iPhone 运行 400B 大模型演示，推理速度约 0.6 token/s

ref

开发者 anemll 在社交平台展示一项实验：在 iPhone 上运行约 400B 参数的大语言模型，推理速度约为 0.6 token/s。演示显示该模型可在移动设备上完成推理流程，但依赖量化与分块加载等技术实现。相关帖子未披露具体设备型号与完整配置细节，实验主要用于展示可行性，作者未就实际应用场景作进一步说明。 (X (formerly Twitter))

该实验基于 MoE（混合专家）架构，仅激活部分参数参与计算，并结合 SSD 流式加载权重以突破内存限制。社区讨论认为，这类方案虽验证“本地运行超大模型”的可能性，但在速度、功耗与实用性上仍存在明显瓶颈，距离实际落地仍有差距。与此同时，随着端侧 AI 能力持续提升，是否会推动 AI 从云端向本地迁移，也成为行业关注焦点。 (Hacker News)

X

WeLinux

iPhone 运行 400B 大模型演示，推理速度约 0.6 token/s