数字李生黄河算力建设实践与思考
李自尊,王益民,楚楠
(黄河水利委员会信患中心,450004,郑州)
摘要:合理规划水利部黄河水利委员会算力资源布局,优化算力资源设计,可为数字李生黄河建设提供缘色、高效、安全、弹性的算力支撑.四顾了黄河水利委员会算力资源建设历程,分析了算力资源、保障设施建设现状,指出算力资源建设在多算力融合、算力资源服务能力、保障体系等方面存在的问 题.基于数字李生黄河建设对算力资源的需求,提出“整合已建、统筹在建、规范新建”的建设思路,整体设计采用中心算力“超集中”,边缘算力“超分布”,算力内核“多样化”,多元算力、算力多主体融合供给的“两超一多两融合”的“云边协同”布局思路,提出从基础计算、高性能计算、人工智能计算等方面提升算力,基于算力资源管理平台实现异构资源统一纳管、精细化权限管理等,从缘色机房环境、容灾备份、分区分域算力资源建设等方面加强保障体系建设,以期为黄河及其他流城后续算力资源规划建设提供参考.
关键词:数字李生黄河:算力;算力布局;多算力融合:保障体系
Practice and refeetions on the constructin of puting power for the digitalwin Yellow River/Li
Zizun Wang Yimin Chu Nan
Abstract: Rational planning of the Yellow River Conservancy Commission’s puting power resource layout and optimization of puting power resource design can provide green effcient secure and flexibleputing support for the construction of the digital twin Yellow River. This paper reviews the constructionhistory of the Commission’s puting power resources analyzes the current status of puting resourcesand supporting facilities and identifies issues in areas such as multi-puting power integration servicecapabilities of puting resources and support systems. Based on the puting power requirements for the digital twin Yellow River the paper proposes a construction approach of *integrating existing resources coordinating ongoing projects and standardizing new constructions". The overall design adopts a “cloud-edge collaboration" layout strategy characterized by “super-centralized central puting power super-distributed edge puting power diversified puting cores and integrated multi-source and multi-entity puting power supply". It suggests enhancing puting capabilities in basic puting high- performance puting and artificial intelligence puting. The paper also remends achieving unifiedmanagement of heterogeneous resources and refined permission management through a puting powerresource management platform and strengthening the support system in areas such as green data centerenvironments disaster recovery backups and regional puting resource construction. These insights aimto provide a reference for the planning and construction of puting power resources for the Yellow River and other river basins.
Keywords: digital twin Yellow River; puting power; puting power layout; multi-puting power
前沿
CHINA WATER RESOURCES2025.3integration; support system 中图分类号:TV882.1TP393 文献标识码:B文章编号:1000-1123(2025)03-0023-09DOI: 10 3969/j.issn 2025.03 003
源服务云化、配置标准化、管理自动化已成为新一代 随着技术推陈出新及运营模式发展变革,算力资算力中心的显著特点.水利部黄河水利委员会(以下简称黄委)算力基础设施建设起步较早,2004年成立生黄河”两个阶段.2001年7月25日,黄委党组正式了全国水利系统的首家数据中心,并形成了以黄河数提出建设“数字黄河”工程.2003年“数字黄河”工程 据中心为主,委属单位山东黄河河务局、河南黄河河规划正式发布,明确要求建设黄河数据中心,黄委算院等分散建设的算力基础设施布局.近年,通过实施位水文局、山东黄河河务局、河南黄河河务局、黄河流与共享等重点项目,黄河数据中心引人云计算、虚拟黄河水利科学研究院、黄河上中游管理局7个分中心,理,提升了应用系统的部署效率,一定程度提高了计的数据中心,并在后续建设中逐步形成了“黄河数据算资源的复用率.随着数字李生黄河建设的深人,数中心数据分中心”的运行模式.然而,随着设备老化、据类型更加复杂多样,数据来源更加丰富,计算模型技术选代和管理模式变化,中心与分中心之间的数据 更加复杂融合,计算方式更加多元,对算力资源的需交换已经停止,分中心的数据也不再向数据中心备份.求也更加复杂、多元、融合.当前,委属各单位算力资源分散部署,整体算力指标强但资源服务能力弱,且模,重点存放基础数据和监测站点采集的结构化数据,传统算力资源无法满足人工智能、高性能计算等新技采用FC-SAN存储技术满足数据高速IOPS访问需求.术应用需求.
一、黄委算力资源建设历程
黄委算力资源建设主要经历“数字黄河”“数字李务局、黄河上中游管理局、水文局、黄河水利科学研究力资源采取“17”建设模式,即1个数据中心,委属单水利财务管理信息系统、黄委综合管理信息资源整合域水资源保护局、黄河勘测规划设计研究院有限公司、化等先进技术理念,以构建面向服务的云服务中心体并将分中心数据在中心备份.2004年,黄河数据中心系为目标,初步实现了物理资源的整合共享、灵活管一期工程建设完成,成为全国水利系统首家投人应用
“数字黄河”阶段数据存储能力达到了10TB级规2020年国家发展改革委、中央网信办、工业和信化方式部署转变:高性能计算平台浮点运算速度为每 基础计算以物理机部署模式为主,并逐步开始向虚拟
息化部、国家能源局联合印发《关于加快构建全国一秒3840亿次,主要为黄委气象水文预报、下游水沙过体化大数据中心协同创新体系的指导意见》,明确指出程演进模拟运算提供计算支撑;基于机器学习、自然语“优化数据中心基础设施建设布局,加快实现数据中言处理等技术的人工智能计算尚未得到应用.心集约化、规模化、绿色化发展”;2021年工业和信息2023年)》,引导传统数据中心向具有高技术、高算力、颜、无人船、工情险情监测感知设备等新型监测感知技高能效、高安全特征的新型数据中心演进,推动CPU、术的普遍应用,使覆盖水利对象全要素和水利治理管GPU等异构算力提升,支撑各类智能应用;2022年水理全过程的数据类型日益繁杂,数据量远超PB级,以利部印发《数字李生流域建设技术大纲(试行)》,提出云计算方式部署的基础计算已成为主流,高性能并行建成省级及以上水行政主管部门水利云,实现计算存计算集群及人工智能计算作为通用计算的补充,应用 储资源按需分配、弹性伸缩,为数字李生流域提供安全需求旺盛.可靠“算力”保障.
化部出台《新型数据中心发展三年行动计划(2021一先行先试,国产化算力进一步提升.卫星、无人机、视 按照水利部统一部署,黄委2022年开展数字李生
二、数字李生黄河算力建设实践
为适应智慧水利建设要求和黄河流域高质量发展客置,提升资源服务能力,支撑新时期数字李生黄河建设. 观需要,垂待推进黄委算力布局统筹共享,优化资源配
1.算力资源建设
在国家新型基础设施建设、信创要求及水利部数
2025.3中国水利
字李生流域建设相关政策文件的指导下,按照“集约库“清四乱”(清理乱占、乱采、乱堆、乱建)冰川融雪 高效、共享开放、安全可靠、按需服务”的原则,在黄河径流中长期预报等领域逐步开展应用,主要采用以英云平台基础上,对云资源进行补充、提升和完善,形成伟达GPU为主的人工智能计算芯片.融合了X86、ARM等不同架构类型,涵盖CPU、GPU等不同芯片的多元异构黄河云,有效支撑了智能遥感解译、无人机智能识别等智能并行运算,以及黄河水早御、水资源管理与调配、“黄河一张图”等几十个治黄的高效稳定运行,满足了业务多样化的计算需求.计源分布,委属单位分散建设机房环境.由于建设年代算资源分为基础计算、高性能计算和人工智能计算三较早,黄河数据中心机房基于传统机房模式建设,制冷类,包括国产化和非国产化两套体系.
基础计算通常指日常业务处理和信息服务计算,等多专业分散集成,运维管理要求高.主要用于业务逻辑流程处理.黄委基础计算资源主要角全局监控、辅助决策能力不足以及国产化资源监控 包括数据中心的服务器、存储和网络设备等基础设施,集中部署在黄河数据中心,并分布在山东黄河河务局、手段缺失等问题,构建了基于国产化技术的黄委信息河南黄河河务局、水文局、黄河上中游管理局等委属单系统智能运维监控平台.该平台整合了信息系统资源,位.黄河数据中心于2015年开始引人云计算技术,开实现了资源监控、运维流程、资产管理和综合展示分析 展了X86云平台建设,共有88个物理CPU,13TB内存,等功能的闭环管理,精细化云资源管理,一定程度提高投人生产运行300余台虚拟机.目前X86云平台内存了故障响应效率和云资源服务质量,确保了上层业务使用率超70%,云计算平台承载能力已经超过理论建系统的稳定运行.议阔值,不再计划扩充.随着国产化的推进,2020年开始搭建国产云平台,选用ARM架构国产芯片搭建虚拟化平台自带的备份功能,实现核心数据及重要业 了计算资源池及存储资源池,操作系统选用银河麒麟务系统的本地备份.部分委属单位建有本地备份系统.V10,主要用于承载公文流转、移动办公等国产化改造后的电子政务系统.数据库为集中方式部署,组建了2节点OracleRAC集群,目前承载了几十个业务系统,力底层架构采用的技术路线、芯片型号各异,未进行有产数据库,均为每套部署一个或几个业务应用.
算的技术,为科学研究提供大规模高性能科学计算和用困难,可操作性差,影响系统整体效能;三是国产化仿真计算服务.2006年,黄河水利科学研究院建成了算力占比不高,部分重要业务系统需要进一步开展国流域机构第一家高性能计算平台一黄河超级计算产化适配;四是算力基础制度体系不健全,算力整合共 中心.随着数字李生黄河对“四预”(预报、预警、预享管理等制度办法落实缺乏强有力的抓手.演、预案)精度和时效性要求不断提高,黄委高性能计算集群能力近年得到一定提升,主要集中部署在委量不足,现有算力资源多随系统或特定项目建设,没有属单位黄河水利科学研究院和水文局,用于二三维水过多余资源,存储资源总量已使用近80%,计算资源动力学模型、黄河流域堤坝溃决及洪水演进模型、黄已近超分1:2阔值;二是尚未建立大规模面向业务生河主要来水区间中长期径流预报模型等专业模型的产运行的高性能计算和人工智能计算平台. 高效计算.
人工智能计算是指用于执行人工智能算法和模型的计算过程,包括机器学习、自然语言处理、深度学习量占数据中心总能耗60%~70%,PUE(PowerUsage和计算机视觉等领域的计算.基于人工智能算法的遥Effectiveness,电源使用效率)值约为3.7,能耗大,运行 感智能提取与分析、视频智能识别等技术在黄委河潮成本高,不符合国家机房能效标准;二是根据《信息安
2.保障设施建设
3.差距与问题
黄河数据中心机房楼为单独楼体,为水早灾害防效率低、机房能耗大,且涉及装修、制冷、供配电、消防
为应对黄河云运行中资源监控分散、缺乏业务视
容灾备份方面,黄河数据中心基于备份一体机及
①多算力融合实践成果不佳.一是委属各单位算已经高负荷运转.考虑到系统性能,近两年购置的国效整合,算力资源无法有效兼容和调度,影响了整体效 益的发挥;二是委属各单位应用系统分散建设,数据格高性能计算是能够对大量任务进行高效快速运式、编译环境、接口标准等不一致,导致系统间融合使
②算力资源服务能力有待提升.一是算力资源总
③保障体系存在薄弱环节.一是机房整体能耗高,目前黄河数据中心采用传统机房模式,非IT设备用电
前沿
CHINA WATER RESOURCES2025.3
全技术网络安全等级保护基本要求)(GB/T22239一 2019),第三级安全要求“应提供异地实时备份功能,利用通信网络将重要数据实时备份至备份场地”,黄河数据中心需要建立数据异地灾备系统;三是政务外网区和互联网区未严格按照网络分区分域管理,存在混淆使用算力资源情况,具有较大网络安全风险.
三、数字李生黄河算力建设思考
1.建设思路
按照“整合已建、统筹在建、规范新建”的建设思路,遵循国家、水利部关于算力资源集约化、规模化、 绿色化部署要求及国产化战略要求,进一步挖掘算力资源潜能,统筹国产算力布局,扩充算力资源,构建数字李生多元算力融合的黄河云.通过黄河云以虚拟数据中心(VDC)或多租户的方式共享算力,支撑流域据灾备中心(见图1). “2N”应用,建成数字李生水利的黄河流域节点和数
①整合已建.委属各单位现有算力资源物理位置保持不变,采用虚拟化或云化技术的国产化算力资源逻辑纳人多元算力融合黄河云,不具备或无法整合的算力资源维持现状使用,并逐步过渡到统一管理、按需共享.
②统筹在建.在建算力资源按照统一的技术标准纳人黄河云统一算力资源管理体系,形成算力合力.
通过虚拟数据中心方式 共享的算力资源由各单位自行分配,高度白主
③规范新建.服务于委级业务的应用,采用国产
化技术统一部署在黄河数据中心,通过集约建设、集中部署、统筹管理,将有限资源优先满足数字李生关键领域、核心业务的发展需要,既合理利用资源,又减少机房环境、网络安全等重复建设导致的资源浪费、安全风险点增加等不合理现象.其他应用原则上采用国产化 技术云化部署,将新增算力资源与黄河云算力资源管理平台对接,实时归集云资源使用数据、云平台运行数据等,实现全委算力资源的统一管理及调度.
2.算力布局
距离长,环境复杂,全流域数据获取困难.考虑到系统 黄河全长5464km,流域面积79.5万km,范围大,响应时效及通信带宽等因素,根据数字李生黄河建设数据采集、处理、分析需求,设计整体采用“两超一多两融合”的“云边协同”布局思路,即中心算力“超集中”,边缘算力“超分布”,算力内核“多样化”,多元算 力、算力多主体融合供给.
(1)中心算力“超集中”
①集约化建设.将分散的算力资源整合至黄河数据中心,形成规模化、集约化的算力中心,降低建设成本,减少安全风险点,提高运维效率,更好地满足数字 李生黄河对大规模计算资源的需求.集中建设和分散建设两种模式对比见表1.
图1数字享生黄河算力布局统筹共享总体思路
智能摄像头)实时检测和识别水位线变化、非法捕捞 的过程中.例如,在智能视频监控系统中,端设备(如行为等,边缘设备进行图像增强、目标跟踪、预警处置;而云计算中心则用于更复杂的数据分析和长期决策支持,如预测水位变化趋势,接收边缘设备上传的预警信息,进一步支持决策和资源调度(见图2).
数量,采用模块化机房技术,对现有机房进行节能改 ②绿色节能.集约化建设可减少单体小规模机房造,降低能耗,响应国家绿色发展战略.
(2)边缘算力“超分布”
①边缘节点建设.在黄河流域的关键区域部署边缘云计算节点,靠近数据源进行数据采集、处理和分 析,降低延迟,提高响应速度,减轻中心算力的负担.
(3)算力内核“多样化”
②云边协同.通过云边协同技术,实现中心算力与边缘算力的协同工作,合理分配计算任务,优化资源利用,提升系统整体性能和可靠性.相比传统的云端数据处理,云边协同模式下,云端计算集群、边缘网络 节点、物联网智能终端都可参与到感知、学习和决策
①异构融合.采用多种芯片架构(如CPU、GPU、TPU等)和计算平台架构(如虚拟化、高性能计算、人工智能计算等)构建多元异构融合的算力资源池,满足不同业务场景下的多样化计算需求.
②弹性扩展.基于云计算技术,实现算力资源的
表1集中建设和分散建设模式对比
对比项 集中建设 分散建设 (关于加快构建全国一体化大数据中心协同创新体系的指导意见)要求建设集约化、规模化、绿色化发展数 说明政策法规 V 据中心 采用相同按术标准,两种建设方式均可实现对资源的统一调度管理:大模型训练需要规模化单体算力中心,资源共享 V 以满足集群网络高速互联用求运维管理 集中建设,统一监控、统一安全管理,投入运维人力成本低;分散建设运维相对分散,统一调配协调难度大, 安全风险点多使用自主座 分散建设用户对资源使用自主度高:集中建设基于虚拟数据中心、租户管理机制可一定程度提升用户自主度绿色节能 V 算力资源稳定运行需要电力、制冷、安防、安全保塞等多方面的支撑,集中建设元余配置少,更加节能 同等规模下,集中建设在支撑环境保障、安全保障、网络通信保塞等方面初始投资小,运营成本低,总拥有投资效益 V 成本低
图2“云边协同”模式