AIGC时代智算中心网络协议演进与思考
AI需求激增推动建设计算和网络基础设施
ChatGPT引l爆AI,智算算力需求激增,参数量呈指数级迭代增长 推动计算与网络基础设施建设不断布局
智能计算需求持续激增
算网基础设施不断布局
随着算力需求的快速增长,A基础设施建设不断布局,算与网成为AI算力的两大重要基础设施
ChatGPT驱动AI大模型训练进入爆发期,参数量指数级增长,AI智能算力增速远超摩尔定律
AI基础设施
网为根基
算为核心
算力需求激增,GPU是重中之重AI芯片市场规模不断扩大,较2022年,2026年A芯片规模提升4倍,GPU市场已是红海
GPU市场规模提升,对网络设备需求激增,网络发展前景极为明朗
我国智算增长迅速,较2019年,2023年算力规模提升14倍,预测未来仍会大幅度的增长
来源:中商产业研究院,安信证券研究中心
来源:Frost&Sulivan,中商产业研究院
GPU算力规模 10000卡
千亿、万亿级 大模型参数量
2000亿元(2025年) 国内市场规模
面向大模型训练,网络成为AI算力瓶颈
AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”
当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点
集群有效算力×{GPU单卡算力*总卡数*线性加速比*有效运行时】
网络性能决定GPU集群算力加速比
网络设备能力决定GPU集群组网规模
网络可用性决定GPU集群稳定性
芯片容量提升2倍,组网规模提高4倍
2%的丢包就会使RDMA吞吐率下降为0
GPU集群性能单GPU性能*N
传统DC与智算中心流量模型区别
单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性
智算中心大模型(All-to-all)流量模型
单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性
IB与RoCE是目前业界主流高性能网络协议
InfiniBand与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议,前者从硬件级别保证网络低时延、高吞吐,后者是将RDMA应用到以太网,依赖PFC等协议实现无损,两者在路由机制、转发机制、算网能力等方面存在差异
Infiniband:1999年IBTA提出,第一代RDMA技术,交换机、网卡、光模块、光纤都是专用产品,专用无损网络,全球独家,和以太网不能互通,采购及维护成本高RoCE:2010年IBTA提出,本质为网卡侧封装技术,不涉及网络侧技术,网络无损能力依赖网络设备与网卡实现,产业开放,组网规模和转发性能较差
管控机制不同,路由算法存在差异
转发机制不同,网络性能存在差异
集中算路统一下发结合端口拥塞SPF,选择最优路径
个体算路相互独立只看最短路径,易出现端口拥塞,故障触发倒换