<?xml version="1.0" encoding="UTF-8"?><rss xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:content="http://purl.org/rss/1.0/modules/content/" xmlns:atom="http://www.w3.org/2005/Atom" version="2.0"><channel><title><![CDATA[iPhone 运行 400B 大模型演示，推理速度约 0.6 token&#x2F;s]]></title><description><![CDATA[<p dir="auto">开发者 anemll 在社交平台展示一项实验：在 iPhone 上运行约 400B 参数的大语言模型，推理速度约为 0.6 token/s。演示显示该模型可在移动设备上完成推理流程，但依赖量化与分块加载等技术实现。相关帖子未披露具体设备型号与完整配置细节，实验主要用于展示可行性，作者未就实际应用场景作进一步说明。 (<a href="https://x.com/anemll/status/2035901335984611412?utm_source=welinux.com" title="Running 400B model on iPhone! 0.6 t/s Credit @danveloper ..." target="_blank" rel="noopener noreferrer nofollow ugc">X (formerly Twitter)</a>)</p>
<p dir="auto">该实验基于 MoE（混合专家）架构，仅激活部分参数参与计算，并结合 SSD 流式加载权重以突破内存限制。社区讨论认为，这类方案虽验证“本地运行超大模型”的可能性，但在速度、功耗与实用性上仍存在明显瓶颈，距离实际落地仍有差距。与此同时，随着端侧 AI 能力持续提升，是否会推动 AI 从云端向本地迁移，也成为行业关注焦点。 (<a href="https://news.ycombinator.com/item?id=47490070&amp;utm_source=welinux.com" title="iPhone 17 Pro Demonstrated Running a 400B LLM" target="_blank" rel="noopener noreferrer nofollow ugc">Hacker News</a>)</p>
<p dir="auto"><a href="https://x.com/anemll/status/2035901335984611412" target="_blank" rel="noopener noreferrer nofollow ugc">X</a></p>
]]></description><link>https://welinux.com//topic/156/iphone-运行-400b-大模型演示-推理速度约-0.6-token-s</link><generator>RSS for Node</generator><lastBuildDate>Mon, 18 May 2026 20:39:13 GMT</lastBuildDate><atom:link href="https://welinux.com//topic/156.rss" rel="self" type="application/rss+xml"/><pubDate>Sun, 03 May 2026 11:52:05 GMT</pubDate><ttl>60</ttl></channel></rss>