中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)
目录
前言... 目录.. 1.算力池化技术背景.1 1.1传统智算中心存在资源效率问题2 1.1.1GPU资源利用率不足30%.2 1.1.2资源碎片化导致分配率低。
1.2池化技术是提高资源效率的关键,4 2.算力池化定义与目标,..6 2.1算力池化的定义...6 2.2算力池化的目标...6 3.算力池化架构与关键技术,8 3.1算力池化平台技术架构..8 3.2算力池化技术能力层级10 3.3算力池化关键技术12 3.3.1软件定义的资源分配方式,12 3.3.2算力资源高质量管理技术.14 3.3.3泛在化碎片的池化整合技术16 4.算力池化产业实践19 4.1业界厂商池化技术实践19 4.2中国移动池化技术实践24 5.展望与倡议、26 参考文献...27 缩略语列表.28
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023) 1.算力池化技术背景
数字经济时代,随着智慧城市、智慧交通、智慧家庭等智能场景 的逐步落地,人工智能正深刻地改变我们的生产、生活方式。
同时随 看5G、边缘计算等支撑技术的持续发展,数智业务转型过程中所产 生的数据量正在以更加难以计量的速度爆发,据IDC公布的《数据时 代2025》显示,从2016年到2025年全球总数据量将会增长10倍, 达到163ZB,其中非结构化数据占70%以上,计算模式将变得更加复杂, 对智能算力的需求也在不断提高,智能计算将成为主流的计算形态。
随着智能计算广泛融合到生产、生活的各个方面,以GPU、AI芯 片为主要算力资源的智算中心正逐步取代通用数据中心成为算力发 展的主流形态。
在此背景下,各国政府已开始布局AI领域全栈能力, 并出资引导智能算力基础设施建设:我国也已进入智能化时代,“十 四五”期间,相关部委积极推动智算中心建设发展,旨在面向人工智 能场景提供公共算力服务。
同时,随着ChatGPT等基础通用大模型业务引爆了对GPU的市场 需求,产业各方纷纷加入对基础大模型的训练和培育,导致“一芯难 求”,GPU价格也随之暴涨。
以英伟达A800为例,据市场数据统计, 近半年来的价格增幅高达30%以上。
如何在有限的资源供应内尽可能 提高利用率,充分发挥算力效率的同时降低智算中心TCO,目前己成 为智算中心建设待解决的关键命题之一。
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)
1.1传统智算中心存在资源效率问题
1.1.1GPU资源利用率不足30%
当前智算中心主要以国家或当地政府总体牵头建设为主,此外, AI应用服务企业也在布局自有智算基础设施建设。
然而,据公开数 据统计,传统模式下的智算中心GPU利用率较低,平均数值低于30%: -AWSre:Invent2018公布数据:平均GPU利用率为20% -Facebook2021年机器学习负载分析报告:平均GPU利用率 不足30% -英伟达GTC2022公布数据:Google云平均GPU利用率为25% 传统智算中心的GPU资源利用率过低,主要来源于以下多个方面 的原因: (一)资源分配较为粗放:资源分配以整卡分配为主,辅以一虚 多的虚拟化分配方式,颗粒度较粗,无法适配不同AI任务对资源的 差异化需求,导致部分资源闲置,影响算力资源的利用率; (二)算力没有被充分激活:AI任务模型设计缺陷、算力优化程 度不足、模型框架与底层芯片适配不充分等原因,均可能导致算力资 源的性能无法充分发挥,导致额外的资源损耗; (三)网络带宽瓶颈制约:智算中心设备和服务器之间的通信需 要消耗网络带宽,网络瓶颈会影响影响整体性能,算力资源空闲度高、 利用率低。
传统智算中心的GPU资源利用率问题是一个综合性的问题,需要
2
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)
从资源管理策略、硬件架构设计、应用软件算法优化等多方面共同优 化解决,其中尤以资源管理策略方面的优化可控性强、生效快、投入 产出比高,是新型智算中心算力池化的重要研究方向之一。
1.1.2资源碎片化导致分配率低
资源碎片指体量较小,低于应用的需求而无法被分配出去的闲置 资源,通常来说,应用所需资源的规格越高、种类越多,导致资源碎 片的概率则越大。
近几年来,AI业务迅速发展,从训练到推动,从 小模型到大模型,AI任务的种类越来越多,对算力的需求越来越高, 算力资源碎片化趋势较为明显。
碎片化的原因包括任务类型差异、任务规模差异、任务优先级差 异以及任务调度能力等多方面因素。
(一)任务类型差异:智算中心提供的算力资源可以用于不同种 类的任务,包括机器学习、深度学习、图像处理等。
也包括大模型、 小模型、分布式推理、集中式推动,由于不同类型的任务对硬件配置 的要求不同,因此会导致不同类型的任务需要不同的算力资源,难以 充分适配: (二)任务规模差异:任务规模不同,所需求的算力资源不同, 并且不同任务规模对算力资源的分配也无实际标准,小规模任务可申 请大规模的算力,虽然存在资源浪费,但却可加速任务完成,相反, 在资源总数限制下,大规模任务也可根据相对较少的算力资源,虽然 影响计算效率,但却节约了投资。
以上多方面的因素,导致任务需求
3
中国移动通信有限公司研究院新型智算中心算力池化技术白皮书(2023)
规格与硬件配置无法对齐,从而导致算力资源碎片化: (三)任务优先级差异:不同的任务可能有不同的优先级,一些 高优先级的任务可能会占用大量的计算资源,导致其他任务无法及时 得到满足,影响整体资源布局; (四)任务调度能力:任务调度也是影响计算资源碎片化的重要 因素。
如果任务调度不当,可能会导致计算资源得不到充分分配,从 而造成资源浪费。
综上所述,根据多样化AI任务对算力资源的差异化需求,灵活 地调度、分配资源,是降低智算中心算力资源碎片的关键。
1.2池化技术是提高资源效率的关键
如何对稀缺、昂贵的算力资源充分利用,降低其不可分配的碎片 概率,可以考虑借鉴云计算的思路,对GPU、AI芯片等进行聚合池化, 再利用先进的资源管理技术进行切分、调度、分配,使能资源可按任 务的实际需求进行有序供给。
(一)物理成池:通过高性能智算中心网络打通服务器间通路, 使得分散在各服务器中的CPU、GPU、AI芯片等算力资源可以互联互 通、透明共享。
这项技术允许跨用户、用例、时间尺度共享物理算力 资源,还可以为在集群的一个节点中执行的单个AI任务任意调用集 群中算力,使AI任务获得进一步加速。
(二)逻辑成池:利用池化软件对CPU、GPU、AI芯片等资源在逻 辑上聚合,AI任务在创建时,不再是将零散的、孤岛式的资源进行...