中国联合网络通信有限公司研究院下一代互联网宽带业务应用国家工程研究中心
2024年7月
前言
在《"十四五”数字经济发展规划》的引领下,我国正致力于智能计算中心的系统化发展,旨在构建集智能算力、通用算法和开发平台于一体的创新型智能基础设施.作为融合算力资源与数据处理的战略枢纽,新一代智算中心正逐渐成为推动科技创新和数字化转型的核心驱动力.
面对计算设备升级、模型训练需求增长等挑战,新一代智算中心的网络管理与运维正朝着云原生化、智能化、绿色化的方向发展.为了应对超多配置、超细粒度、超大规模和超智控制等挑战,必须实施端到端的资源协同管理、自动化部署、性能优化和故障监测等关键能力,以解决计算与网络分离运营带来的孤岛效应.
本白皮书提出了新一代智算中心网络管控运维技术体系,详细阐述了中国联通在该方向的创新思考及实践.同时,面向智算中心网络的未来演进,提出应通过数字李生、故障自愈和管控运维智能体等方面的技术,实现网络质量、网络安全、和网络可持续发展性的统一协调维护的倡议.
最后,本白皮书展望了新一代智算中心网络管控与运维的发展前景,期待与行业同仁携手,共同推动智算中心网络的先进建设和高效运营,为数字经济的发展贡献新的力量.
联合编写单位:(排序不分先后)
中国联合网络通信有限公司研究院,下一代互联网宽带业务应用国家工程研究中心,联通集团网络部,联通集团云网运营中心,中国联通数字科技有限公司,中国联合网络通信有限公司广东省分公司,中国联合网络通信有限公司上海省分公司,中国联合网络通信有限公司江苏省分公司,华为技术有限公司,中兴通讯股份有限公司,薪华三技术有限公司,北京基流科技有限公司
编写组成员:(排序不分先后)
曹畅,徐博华,韩博文,张冬月,赫罡,童俊杰,刘干仞,张屹荥,康凯,文湘江,胡效赫,辛奇,李婧颖,敬阳,林观康,罗彪,曾楚轩,杜量,廖思忆,林建森,王俊敏,赵欢,严海,孙旺,吴圣伟,丁钰,汤似锦,周昆,王承锋,郑上闽,梁音
目录
1新一代智算中心网络管控运维需求
1.1新一代智算中心发展概述1.2新一代智算中心网络管控运维挑战1.3新一代智算中心网络管控运维需求1.3.1精细化硬件资源管理 .41.3.2端网一体化管理 41.3.3设备状态的可视化与监控1.3.4高效的故障管理与业务恢复1.3.5多租户需求.
2新一代智算中心网络管控运维技术体系 7
2.1高性能算网平面是基础 72.2管控运维是关键能力2.3智算网络大脑是未来 11
3新一代智算中心网络管控运维平台关键能力 ..13
3.1.1多层次拓扑可视 ..143.1.2拓扑校验.3.1.3资源的全生命周期可视化 . 15
3.3.1高精度采集与数据分析 173.3.2基线预测与异常检测 ... 18
3.4.4故障隔离 213.4.5作业恢复与CKPT. .213.4.6持续监控与自我修复 223.5优化调度. 223.5.1端网协同的拥塞控制优化3.5.2端网协同的路径规划3.5.3集合通信优化 24
2224
4新一代智算中心网络管控运维关键技术展望 26
4.1智算中心网络数字李生 264.2故障自愈. 284.3管控运维智能体 28
6缩略语列表 .33