新型智算中心算力池化技术白皮书2023.pdf

文档页数：33

文档大小：2.72MB

文档格式：pdf

文档分类：计算机与AI

上传会员：匿名用户

上传日期：2026-04-23

最后更新：2026-04-23

中国移动通信有限公司研究院新型智算中心算力池化技术白皮书（2023）
目录
前言... 目录.. 1.算力池化技术背景.1 1.1传统智算中心存在资源效率问题2 1.1.1GPU资源利用率不足30%.2 1.1.2资源碎片化导致分配率低。

1.2池化技术是提高资源效率的关键，4 2.算力池化定义与目标，..6 2.1算力池化的定义...6 2.2算力池化的目标...6 3.算力池化架构与关键技术，8 3.1算力池化平台技术架构..8 3.2算力池化技术能力层级10 3.3算力池化关键技术12 3.3.1软件定义的资源分配方式，12 3.3.2算力资源高质量管理技术.14 3.3.3泛在化碎片的池化整合技术16 4.算力池化产业实践19 4.1业界厂商池化技术实践19 4.2中国移动池化技术实践24 5.展望与倡议、26 参考文献...27 缩略语列表.28
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书（2023） 1.算力池化技术背景
数字经济时代，随着智慧城市、智慧交通、智慧家庭等智能场景的逐步落地，人工智能正深刻地改变我们的生产、生活方式。

同时随看5G、边缘计算等支撑技术的持续发展，数智业务转型过程中所产生的数据量正在以更加难以计量的速度爆发，据IDC公布的《数据时代2025》显示，从2016年到2025年全球总数据量将会增长10倍，达到163ZB，其中非结构化数据占70%以上，计算模式将变得更加复杂，对智能算力的需求也在不断提高，智能计算将成为主流的计算形态。

随着智能计算广泛融合到生产、生活的各个方面，以GPU、AI芯片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发展的主流形态。

在此背景下，各国政府已开始布局AI领域全栈能力，并出资引导智能算力基础设施建设：我国也已进入智能化时代，“十四五”期间，相关部委积极推动智算中心建设发展，旨在面向人工智能场景提供公共算力服务。

同时，随着ChatGPT等基础通用大模型业务引爆了对GPU的市场需求，产业各方纷纷加入对基础大模型的训练和培育，导致“一芯难求”，GPU价格也随之暴涨。

以英伟达A800为例，据市场数据统计，近半年来的价格增幅高达30%以上。

如何在有限的资源供应内尽可能提高利用率，充分发挥算力效率的同时降低智算中心TCO，目前己成为智算中心建设待解决的关键命题之一。

中国移动通信有限公司研究院新型智算中心算力池化技术白皮书（2023）
1.1传统智算中心存在资源效率问题
1.1.1GPU资源利用率不足30%
当前智算中心主要以国家或当地政府总体牵头建设为主，此外， AI应用服务企业也在布局自有智算基础设施建设。

然而，据公开数据统计，传统模式下的智算中心GPU利用率较低，平均数值低于30%： -AWSre:Invent2018公布数据：平均GPU利用率为20% －Facebook2021年机器学习负载分析报告：平均GPU利用率不足30% -英伟达GTC2022公布数据：Google云平均GPU利用率为25% 传统智算中心的GPU资源利用率过低，主要来源于以下多个方面的原因：（一）资源分配较为粗放：资源分配以整卡分配为主，辅以一虚多的虚拟化分配方式，颗粒度较粗，无法适配不同AI任务对资源的差异化需求，导致部分资源闲置，影响算力资源的利用率；（二）算力没有被充分激活：AI任务模型设计缺陷、算力优化程度不足、模型框架与底层芯片适配不充分等原因，均可能导致算力资源的性能无法充分发挥，导致额外的资源损耗；（三）网络带宽瓶颈制约：智算中心设备和服务器之间的通信需要消耗网络带宽，网络瓶颈会影响影响整体性能，算力资源空闲度高、利用率低。

传统智算中心的GPU资源利用率问题是一个综合性的问题，需要
2
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书（2023）
从资源管理策略、硬件架构设计、应用软件算法优化等多方面共同优化解决，其中尤以资源管理策略方面的优化可控性强、生效快、投入产出比高，是新型智算中心算力池化的重要研究方向之一。

1.1.2资源碎片化导致分配率低
资源碎片指体量较小，低于应用的需求而无法被分配出去的闲置资源，通常来说，应用所需资源的规格越高、种类越多，导致资源碎片的概率则越大。

近几年来，AI业务迅速发展，从训练到推动，从小模型到大模型，AI任务的种类越来越多，对算力的需求越来越高，算力资源碎片化趋势较为明显。

碎片化的原因包括任务类型差异、任务规模差异、任务优先级差异以及任务调度能力等多方面因素。

（一）任务类型差异：智算中心提供的算力资源可以用于不同种类的任务，包括机器学习、深度学习、图像处理等。

也包括大模型、小模型、分布式推理、集中式推动，由于不同类型的任务对硬件配置的要求不同，因此会导致不同类型的任务需要不同的算力资源，难以充分适配：（二）任务规模差异：任务规模不同，所需求的算力资源不同，并且不同任务规模对算力资源的分配也无实际标准，小规模任务可申请大规模的算力，虽然存在资源浪费，但却可加速任务完成，相反，在资源总数限制下，大规模任务也可根据相对较少的算力资源，虽然影响计算效率，但却节约了投资。

以上多方面的因素，导致任务需求
3
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书（2023）
规格与硬件配置无法对齐，从而导致算力资源碎片化：（三）任务优先级差异：不同的任务可能有不同的优先级，一些高优先级的任务可能会占用大量的计算资源，导致其他任务无法及时得到满足，影响整体资源布局；（四）任务调度能力：任务调度也是影响计算资源碎片化的重要因素。

如果任务调度不当，可能会导致计算资源得不到充分分配，从而造成资源浪费。

综上所述，根据多样化AI任务对算力资源的差异化需求，灵活地调度、分配资源，是降低智算中心算力资源碎片的关键。

1.2池化技术是提高资源效率的关键
如何对稀缺、昂贵的算力资源充分利用，降低其不可分配的碎片概率，可以考虑借鉴云计算的思路，对GPU、AI芯片等进行聚合池化，再利用先进的资源管理技术进行切分、调度、分配，使能资源可按任务的实际需求进行有序供给。

（一）物理成池：通过高性能智算中心网络打通服务器间通路，使得分散在各服务器中的CPU、GPU、AI芯片等算力资源可以互联互通、透明共享。

这项技术允许跨用户、用例、时间尺度共享物理算力资源，还可以为在集群的一个节点中执行的单个AI任务任意调用集群中算力，使AI任务获得进一步加速。

（二）逻辑成池：利用池化软件对CPU、GPU、AI芯片等资源在逻辑上聚合，AI任务在创建时，不再是将零散的、孤岛式的资源进行...

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成，用以平摊存储及运营成本。本站仅为用户提供资料分享平台，且会员之间资料免费共享（平台无费用分成），不提供其他经营性业务。

投稿会员：匿名用户

新型智算中心算力池化技术白皮书2023.pdf

推荐内容/By 规范库

手机扫码、免注册、直接登录