B400G以太网助力智算中心光互联.pptx

智算,模型,算力,网络,规模,计算机与AI
文档页数:20
文档大小:1.63MB
文档格式:pptx
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

B400G以太网助力智算中心光互 联

程伟强

中国移动研究院-基础网络技术研究所

算力成为数字经济时代的核心竞争

AI大模型带动算力成为数字经济时代的核心竞争力.到2025年,我国算力规模将超过300EFLOPS,智能算力占比达到35%;算力基础设施将成为推动我国经济转型升级和培育新动能的重要力量

传统DC与智算中心流量模型区 别

传统DC流量模型

单个流量:数量多、带宽小、异步累积流量:抖动幅度较小,具有随机性

智算中心大模型(All-to-all)流量模型

单个流量:数量少、带宽大、同步累积流量:波峰、波谷效应明显,具有周期性

面向大模型训练,网络成为AI算力瓶 颈

>AI大模型以GPU集群分布式训练为基础,带来大量节点间通信消耗,网络成为AI算力“瓶颈”

>当前业界主流智算中心网络技术被国外厂商垄断,网络芯片存在代际差距,网络可能成为我国AI发展的“新卡点”

集群有效算力α{GPU单卡算力*总卡数*线性加速比*有效运行时)

网络设备能力决定GPU集群组网规模

网络性能决定GPU集群算力加速比

网络可用性决定GPU集群稳定性

芯片容量提升2倍,组网规模提高4倍

2%的丢包就会使RDMA吞吐率下降为0

GPU集群性能单GPU性能*N

随着GPU单卡算力受限,以网强算成为提升大模型训练效率的关键,探索以太网的新调度机制、新接口速率和新安全方案,提升智算中心网络性能和整体算力水平

目录

以太网新调度机制一GSE

以太网新接口速率一B400GE

以太网新安全方案一PHYSec

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)