【专家PPT】AIGC时代智算中心网络协议演进与思考(18页 PPT).pptx

文档页数：18

文档大小：1MB

文档格式：pptx

文档分类：计算机与AI

上传会员：匿名用户

上传日期：2026-04-23

最后更新：2026-04-23

AIGC时代智算中心网络协议演进与思考

AI需求激增推动建设计算和网络基础设施

ChatGPT引l爆AI，智算算力需求激增，参数量呈指数级迭代增长推动计算与网络基础设施建设不断布局

智能计算需求持续激增

算网基础设施不断布局

随着算力需求的快速增长，A基础设施建设不断布局，算与网成为AI算力的两大重要基础设施

ChatGPT驱动AI大模型训练进入爆发期，参数量指数级增长，AI智能算力增速远超摩尔定律

AI基础设施

网为根基

算为核心

算力需求激增，GPU是重中之重AI芯片市场规模不断扩大，较2022年，2026年A芯片规模提升4倍，GPU市场已是红海

GPU市场规模提升，对网络设备需求激增，网络发展前景极为明朗

我国智算增长迅速，较2019年，2023年算力规模提升14倍，预测未来仍会大幅度的增长

来源：中商产业研究院，安信证券研究中心

来源：Frost&Sulivan，中商产业研究院

GPU算力规模 10000卡

千亿、万亿级大模型参数量

2000亿元（2025年）国内市场规模

面向大模型训练，网络成为AI算力瓶颈

AI大模型以GPU集群分布式训练为基础，带来大量节点间通信消耗，网络成为AI算力“瓶颈”

当前业界主流智算中心网络技术被国外厂商垄断，网络芯片存在代际差距，网络可能成为我国AI发展的“新卡点

集群有效算力×{GPU单卡算力*总卡数*线性加速比*有效运行时】

网络性能决定GPU集群算力加速比

网络设备能力决定GPU集群组网规模

网络可用性决定GPU集群稳定性

芯片容量提升2倍，组网规模提高4倍

2%的丢包就会使RDMA吞吐率下降为0

GPU集群性能单GPU性能*N

传统DC与智算中心流量模型区别

单个流量：数量多、带宽小、异步累积流量：抖动幅度较小，具有随机性

智算中心大模型（All-to-all）流量模型

单个流量：数量少、带宽大、同步累积流量：波峰、波谷效应明显，具有周期性

IB与RoCE是目前业界主流高性能网络协议

InfiniBand与RoCE是由IBTA提出的两种主流面向RDMA提供高性能交换能力的传输协议，前者从硬件级别保证网络低时延、高吞吐，后者是将RDMA应用到以太网，依赖PFC等协议实现无损，两者在路由机制、转发机制、算网能力等方面存在差异

Infiniband：1999年IBTA提出，第一代RDMA技术，交换机、网卡、光模块、光纤都是专用产品，专用无损网络，全球独家，和以太网不能互通，采购及维护成本高RoCE：2010年IBTA提出，本质为网卡侧封装技术，不涉及网络侧技术，网络无损能力依赖网络设备与网卡实现，产业开放，组网规模和转发性能较差

管控机制不同，路由算法存在差异

转发机制不同，网络性能存在差异

集中算路统一下发结合端口拥塞SPF，选择最优路径

个体算路相互独立只看最短路径，易出现端口拥塞，故障触发倒换

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成，用以平摊存储及运营成本。本站仅为用户提供资料分享平台，且会员之间资料免费共享（平台无费用分成），不提供其他经营性业务。

投稿会员：匿名用户

【专家PPT】AIGC时代智算中心网络协议演进与思考(18页 PPT).pptx

推荐内容/By 规范库

手机扫码、免注册、直接登录