标签为“网络协议”的主题

OpenAI、微软、英伟达、AMD、英特尔及博通的研究团队于 5 月 6 日联合发布论文，正式推出历时两年研发的数据中心网络传输协议 MRC（多路径可靠连接，Multipath Reliable Connection），并通过开放计算项目（OCP）以开放许可证发布规范。MRC 针对大规模 GPU 集群中两大核心痛点而设计：一是拥塞——采用"数据包喷射"（packet spraying）机制，将数据流同时分散至数百条网络路径，避免单链路过载，同时压平集群网络层级，降低整体能耗；二是故障——可在微秒级内检测路径中断并自动切换，使训练任务在网络局部故障时无需中断。此外，MRC 还与 SRv6（IPv6 段路由）协议配合，由发送端直接规划数据路径，大幅减少交换机的路由计算负担。OpenAI 网络负责人 Mark Handley 表示，MRC 让集群网络从"故障放大器"变为弹性基础设施。 MRC 目前已部署于 OpenAI 与微软最大的训练集群，包括甲骨文德克萨斯州 Abilene 站点及微软的 Fairwater 超算，并已参与训练多个 OpenAI 模型。英伟达方面同步宣布，Spectrum-X 以太网平台原生支持 MRC 协议，同时兼容此前的自适应 RDMA 方案，为客户提供传输层选择弹性。OpenAI 工作负载负责人 Greg Steinbrecher 强调，推动 MRC 开源的出发点是消除行业碎片化——当前各家大型公司各自维护私有协议，整体效率低下，统一标准后算力资源才能得到更充分利用。 NVIDIA Blog | The Deep View https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/ https://www.thedeepview.com/articles/exclusive-openai-unveils-protocol-to-stretch-compute

WeLinux

OpenAI 联合英伟达等五家公司发布 MRC 网络协议，解决 GPU 集群拥塞与故障问题并开源