新一代智算中心网络管控运维技术白皮书-2024.07-39正式版-WN8.pdf

中心,故障,智算,智能,管控,计算机与AI
文档页数:39
文档大小:3.43MB
文档格式:pdf
文档分类:计算机与AI
上传会员:
上传日期:
最后更新:

新一代智算中心网络 管控运维技术白皮书

中国联合网络通信有限公司研究院下一代互联网宽带业务应用国家工程研究中心

2024年7月

前言

在《"十四五”数字经济发展规划》的引领下,我国正致力于智能计算中心的系统化发展,旨在构建集智能算力、通用算法和开发平台于一体的创新型智能基础设施.作为融合算力资源与数据处理的战略枢纽,新一代智算中心正逐渐成为推动科技创新和数字化转型的核心驱动力.

面对计算设备升级、模型训练需求增长等挑战,新一代智算中心的网络管理与运维正朝着云原生化、智能化、绿色化的方向发展.为了应对超多配置、超细粒度、超大规模和超智控制等挑战,必须实施端到端的资源协同管理、自动化部署、性能优化和故障监测等关键能力,以解决计算与网络分离运营带来的孤岛效应.

本白皮书提出了新一代智算中心网络管控运维技术体系,详细阐述了中国联通在该方向的创新思考及实践.同时,面向智算中心网络的未来演进,提出应通过数字李生、故障自愈和管控运维智能体等方面的技术,实现网络质量、网络安全、和网络可持续发展性的统一协调维护的倡议.

最后,本白皮书展望了新一代智算中心网络管控与运维的发展前景,期待与行业同仁携手,共同推动智算中心网络的先进建设和高效运营,为数字经济的发展贡献新的力量.

联合编写单位:(排序不分先后)

中国联合网络通信有限公司研究院,下一代互联网宽带业务应用国家工程研究中心,联通集团网络部,联通集团云网运营中心,中国联通数字科技有限公司,中国联合网络通信有限公司广东省分公司,中国联合网络通信有限公司上海省分公司,中国联合网络通信有限公司江苏省分公司,华为技术有限公司,中兴通讯股份有限公司,薪华三技术有限公司,北京基流科技有限公司

编写组成员:(排序不分先后)

曹畅,徐博华,韩博文,张冬月,赫罡,童俊杰,刘干仞,张屹荥,康凯,文湘江,胡效赫,辛奇,李婧颖,敬阳,林观康,罗彪,曾楚轩,杜量,廖思忆,林建森,王俊敏,赵欢,严海,孙旺,吴圣伟,丁钰,汤似锦,周昆,王承锋,郑上闽,梁音

目录

1新一代智算中心网络管控运维需求

1.1新一代智算中心发展概述1.2新一代智算中心网络管控运维挑战1.3新一代智算中心网络管控运维需求1.3.1精细化硬件资源管理 .41.3.2端网一体化管理 41.3.3设备状态的可视化与监控1.3.4高效的故障管理与业务恢复1.3.5多租户需求.

2新一代智算中心网络管控运维技术体系 7

2.1高性能算网平面是基础 72.2管控运维是关键能力2.3智算网络大脑是未来 11

3新一代智算中心网络管控运维平台关键能力 ..13

3.1.1多层次拓扑可视 ..143.1.2拓扑校验.3.1.3资源的全生命周期可视化 . 15

3.3.1高精度采集与数据分析 173.3.2基线预测与异常检测 ... 18

3.4.4故障隔离 213.4.5作业恢复与CKPT. .213.4.6持续监控与自我修复 223.5优化调度. 223.5.1端网协同的拥塞控制优化3.5.2端网协同的路径规划3.5.3集合通信优化 24

2224

4新一代智算中心网络管控运维关键技术展望 26

4.1智算中心网络数字李生 264.2故障自愈. 284.3管控运维智能体 28

6缩略语列表 .33

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)