跳转至内容
  • 0 赞同
    1 帖子
    19 浏览
    R
    OpenAI、微软、英伟达、AMD、英特尔及博通的研究团队于 5 月 6 日联合发布论文,正式推出历时两年研发的数据中心网络传输协议 MRC(多路径可靠连接,Multipath Reliable Connection),并通过开放计算项目(OCP)以开放许可证发布规范。MRC 针对大规模 GPU 集群中两大核心痛点而设计:一是拥塞——采用"数据包喷射"(packet spraying)机制,将数据流同时分散至数百条网络路径,避免单链路过载,同时压平集群网络层级,降低整体能耗;二是故障——可在微秒级内检测路径中断并自动切换,使训练任务在网络局部故障时无需中断。此外,MRC 还与 SRv6(IPv6 段路由)协议配合,由发送端直接规划数据路径,大幅减少交换机的路由计算负担。OpenAI 网络负责人 Mark Handley 表示,MRC 让集群网络从"故障放大器"变为弹性基础设施。 MRC 目前已部署于 OpenAI 与微软最大的训练集群,包括甲骨文德克萨斯州 Abilene 站点及微软的 Fairwater 超算,并已参与训练多个 OpenAI 模型。英伟达方面同步宣布,Spectrum-X 以太网平台原生支持 MRC 协议,同时兼容此前的自适应 RDMA 方案,为客户提供传输层选择弹性。OpenAI 工作负载负责人 Greg Steinbrecher 强调,推动 MRC 开源的出发点是消除行业碎片化——当前各家大型公司各自维护私有协议,整体效率低下,统一标准后算力资源才能得到更充分利用。 NVIDIA Blog | The Deep View https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/ https://www.thedeepview.com/articles/exclusive-openai-unveils-protocol-to-stretch-compute