B400G以太网助力智算中心光互 联
程伟强
中国移动研究院-基础网络技术研究所
算力成为数字经济时代的核心竞争
AI大模型带动算力成为数字经济时代的核心竞争力.到2025年,我国算力规模将超过300EFLOPS,智能算力占比达到35%;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量
传统DC与智算中心流量模型区 别
传统DC流量模型
单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性
智算中心大模型(All-to-all)流量模型
单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性
面向大模型训练,网络成为AI算力瓶 颈
>AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”
>当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”
集群有效算力α{GPU单卡算力*总卡数*线性加速比*有效运行时)
网络设备能力决定GPU集群组网规模
网络性能决定GPU集群算力加速比
网络可用性决定GPU集群稳定性
芯片容量提升2倍,组网规模提高4倍
2%的丢包就会使RDMA吞吐率下降为0
GPU集群性能单GPU性能*N
随着GPU单卡算力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速率和新安全方案,提升智算中心网络性能和整体算力水平
目录
以太网新调度机制一GSE
以太网新接口速率一B400GE
品
以太网新安全方案一PHYSec