CAICT中国信通院
人工智能研发运营体系 (MLOps)实践指南 (2023年)
中国信息通信研究院云计算与大数据研究所人工智能关键技术和应用评测工业和信息化部重点实验室2023年3月
声明
本指南属于中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室,并受法律保护.转载、摘编或利用其它方式使用本指南文字或者观点的,应注明“来源:中国信息通信研究院、人工智能关键技术和应用评测工业和信息化部重点实验室”.违反上述声明者,本院将追究其相关法律责任.
前言
随着国家新型基础设施建设发展战略(2020)、国家“十四五规划和2035年远景目标纲要"等系列政策的出台,人工智能(AI)发展迎来新一轮红利,科技革命和产业升级处于进行时.近年来,AI工程化的研究热度持续提升,其目的是帮助组织在数智化转型过程中,更高效、大规模地利用AI创造业务价值.人工智能研发运营体系(MLOps)作为AI工程化重要组成部分,其核心思想是解决AI生产过程中团队协作难、管理乱、交付周期长等问题,最终实现高质量、高效率、可持续的AI生产过程.
MLOps的发展呈现出逐渐成熟的态势,近几年国内外MLOps落地应用正持续快速推进,特别是在IT、银行、电信等行业取得明显效果.与此同时,MLOps行业应用成熟度不足,使得组织在制度规范的建立、流程的打通、工具链的建设等诸多环节面临困难.因此本指南旨在成为组织落地MLOps并赋能业务的“口袋书”,围绕机器学习全生命周期,为模型的持续构建、持续交付、持续运营等过程提供参考,推进组织的MLOps落地进程,提高组织AI生产质效.
本指南由中国信通院云计算与大数据研究所、人工智能关键技术和应用评测工业和信息化部重点实验室联合发布.本指南站在组织如何布局和落地MLOps的视角,以模型的高质量、可持续交付作为核心逻辑,系统性梳理MLOps概念内涵、发展过程、落地挑战等现状,并基于MLOps的理论研究和实践案例分析组织如何构建MLOps框架体系和关键能力,最后总结和展望其发展趋势.
由于AI产业的快速变革,MLOps落地应用持续深入,工具市场不断选代,我们对MLOps的认识还有待继续深化,本指南可能仍存在不足之处,欢迎大家批评指正.
目录
MLOps概述(一)AI生产过程管理问题凸显(二)MLOps概念与意义.(三)MLOps实施原则..二、MLOps发展现状与挑战...6(一)MLOps发展过程.. 6(二)MLOps 落地挑战三、MLOps框架体系 13(一)机器学习项目生命周期 13(二)MLOps流程架构.. 14(三)MLOps相关角色... 19四、MLOps关键能力与技术实践...22(一)数据处理 22(二)模型训练.. 25(三)构建集成. .27(四)模型服务 .30(五)运营监控. .35(六)模型重训(七)实验管理 .40(八)流水线管理 .43(九)特征管理 .45(十)模型管理 .47(十一)仓库管理 .50二)模型安全.53五、 MLOps总结与展望 .57总结 .57展望 .58
图目录
图1MLOps示意图.图2MLOps实施原则..图3机器学习技术债示意图..图4Gartner数据科学和机器学习技术成熟曲线 .8图5MLOps工具分类一览...6图6机器学习项目生命周期示意图. 13图7基于MLOps框架的机器学习项目生命周期示意图 .14图8MLOps流程架构示意图... ...14图9MLOps相关角色分工示意图..图10MLOps关键能力示意图.. 22图11广东移动的数据处理能力示意图.23图12格物钛的数据处理能力示意图. ...4图13 云测数据的数据处理能力架构图 .25图14 百度的模型训练架构图 27图15马上消费的构建集成流程图. ...9图16腾讯的MLOps平台示意图 ...30图17浦发银行模型服务示意图. ...2图18建行模型服务架构图 ..33图19中移在线中心Polaris MLOps平台模型部署流程 ...4图20 星环科技MLOps流程图 ...5图21 联通软件研究院模型成效闭环运营分析示意图.. ...37图22 蚂蚁的持续训练能力示意图. ...9蚂蚁的持续训练流程图.图23 ..0图24 百度的实验管理流程图. ..41图25 华为终端云的实验管理界面 ..2图26 农行的流水线管理示意图.. ...4图27华为终端云的流水线编排可视化能力示意图. 44图28华为终端云的特征实验流程图.. .46