标
准
T/ISC 0110-2026
Method for evaluating the capability and effect of largemodels based onhealthcare portrait
中国互联网协会发布
目次
前1范围. 言2规范性引用文件3术语和定义,4符号和缩略语..5基于医疗健康画像的大模型能力通用效果评估5.1评估对象5.2通用评估流程..5.3通用评估方法,5.4通用评估指标. 5.5数据集通用要求.6基于医疗健康画像的大模型能力典型场景效果评估.6.1症状咨询场景评估.6.2用药咨询场景评估,6.3检查检验报告解读场景评估 6.4智能导诊与分诊场景评估 66.5辅助诊疗场景评估. 106.6疾病风险预测场景评估 116.7病情评估场景评估 6.8医瞩质控场景评估 13 126.9疾病管理场景评估, 136.10饮食运动建议场景评估 14
前言
本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草.
请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别专利的责任.
本文件由中国互联网协会提出并归口.
本文件起草单位:讯飞医疗科技股份有限公司、中国信息通信研究院、国家卫生健康委人口文化与基层健康中心、国家卫生健康委卫生发展研究中心、国家卫生健康委信息统计中心、国家健康医疗大数据研究院(深圳)、上海市卫生和健康发展研究中心、海南省卫生健康委员会统计 信息中心、上海市静安区卫生信息中心、深圳市宝安区卫生事业发展中心、人民卫生出版社、科学技术文献出版社、《中华医学杂志》社有限责任公司、首都医科大学附属北京安定医院、清华大学北京清华长庚医院、首都医科大学附属北京安贞医院、北京大学人民医院、北京协和医院、中国科学技术大学附属第一医院、安徽医科大学第一附属医院、郑州大学第一附属医院、中南大 学湘雅二医院、四川省人民医院、中国医科大学附属盛京医院、广州医科大学附属妇女儿童医疗中心、北京大学肿瘤医院、重庆医科大学附属儿童医院、苏州大学附属儿童医院、北京大学国际医院、南京医科大学附属无锡人民医院、河南科技大学第一附属医院、河南大学淮河医院、重庆 大学附属沙坪坝医院、南通市第六人民医院
本文件主要起草人:陶晓东、贺志阳、陈祖吉、刘洋、鲍溪荷、赵景鹤、黄金柱、宋江梅、乔克建、陈晨、李成文、叶沁雯、程美、尤梦祥、杨爱平、张并立、王刚、魏来、何怡华、饶慧瑛、杜雨暄、任九选、贾斐、相识、张卓然、刘泊宁、黄涂半特、王慧莹、李腾、黄二丹,赵美 英,邱英鹏、朱岩、杨正、蒋璐伊、王存库、陈光焰、魏宝、陈晓萍、赵亦俊、周瑾、黄垦、孙玉立、孙桂先、陈永刚、曲春晓、贾晓巍、孔荣华、蔡蓉、戴小欢、沈锡宾、田丙磊、王立磊、丰雷、李楠茜、李月红、林明贵、韩建成、贡鸣、董霄松、赵慧萍、李晓鹤、孟晓阳、韩永生、 陈玉俊、郑雪瑛、骆斯慧、姜东兴、张洁、杜明超、戴梦缘、李仲颖、杨扬、詹俊鲲、雷舜东、刘佑韧、邵尉、曹霞、曹晓均、曹广、李禄生、邓冬梅、杨赞滢、朱晨、李胜光、葛锐、刘苏熠、高晓乐、吴恒、李由、洪石陈
本文件及其所代替文件的历次版本发布情况为:
基于医疗健康画像的大模型能力效果评估方法
1范围
本文件规定了基于医疗健康画像的大模型能力效果评价及对应的评价指标要求,明确了医疗健康画像增强生成的大模型能力效果的评估方向与核心维度.
本标准适用于医疗机构、医疗科技企业、医疗健康数据服务机构、公共卫生管理部门等相关单位,卫生决策等应用效果的评估依据之一. 对基于医疗健康画像的大模型能力效果评估活动,可作为医疗健康大模型在健康咨询、辅助诊疗、公共
2规范性引用文件
仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本 下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款,其中,注日期的引用文件,文件.
WS/T363-2023卫生健康信总数据元目录WS/T364-2023卫生健康信总数据元值域代码 WS/T846-2024医院信息平台交互标准ITU-T F.748.44基础模型评估标准(A Assessment criteria for foundation models - Benchmark)
3术语和定义
3. 1
医疗健康画像healthcare portrait
是指对居民、家庭和区域与医疗健康相关的多源异构原始数据,进行采集、治理与深度挖掘等,构建出的结构化、标签化且多维立体的数字健康模型.
4符号和缩略语
下列符号和缩略语适用于本文件.
FN:假阴性(False Negative) AUC:曲线下面积(Area Under the Curve)FP:假阳性(False Positive)FPR:假阳性率(False Positive Rate) ICD-10:国际疾病分类第十版(International Classification of Disease 10 Revision)ROC:接受者操作特性曲线(Receiver OperatingCharacteristic)SNOMED CT:医学系统命名法--临床术语(Systematized Nomenclature of Medicine -ClinicalTN:真阴性(True Negative)TP:真阳性(True Positive) TPR:真阳性率(True Positive Rate)
5基于医疗健康画像的大模型能力通用效果评估
5.1评估对象
通用评估流程与评估指标适用于各类应用医疗健康画像增强生成的大模型能力评估,针对不同场景的大模型应用需要基于场景设置个性化评估指标.
5.2通用评估流程
遵循“准备-实施-分析-总结”的逻辑,结合医疗健康画像的特殊性与数据合规要求,计算各场景对应指标,具体流程如下:
a)评估准备:明确评估目标、评估范围及评估对象,确定评估所覆盖的医疗场景,制定评估方案,明确数据来源、评估目标的数据伦理安全符合性、评估指标、评估方法及时间节点,同步完成b)数据采集与预处理:采集符合评估要求的医疗健康画像数据及对应场景的模型输入输出数据, 评估工具的调试与校准:数据来源需符合医疗数据合规要求,涵盖不同人群、不同来源的样本(应接近应用场景人群分布),确保样本的代表性与多样性:对采集的数据进行预处理,生成评估数据集:c)模型部署与测试:输入基础数据对应医疗健康画像数据,模拟有医疗健康画像支撑的大模型 应用场景,记录大模型输出结果、响应速度等实时数据:d)指标计算:根据模型测试记录的输入输出数据,按照评估指标计算公式,保存测试日志,确保e)结果分析:对比评估指标的临床需求标准,分析各个场景下的指标与临床需求标准的差距: 指标计算的准确性与可追溯性:f)评估报告生成:汇总评估过程、数据来源、指标计算结果、结果分析,形成标准化评估报告,
5.3通用评估方法
采用自动化与人工结合的多维度评估体系,具体方法如下:
a)数据抽样方法:采用分层抽样法选取评估样本,根据医疗健康画像的核心维度与场景类型进行 分层,确保每层样本数量占比与实际应用场景中的分布比例一致,确保样本覆盖全面.记录抽样规则、样本数量及分层明细:b)模型测试方法:采用批量数据输入模式,基于预处理后的测试集自动化运行模型,记录输出结 果:c)指标计算方法:采用“自动化工具手动校验”结合的方式.自动化工具需符合医疗数据规范,实现指标的批量计算.手动校验应选取不少于10%的测试样本(高风险场景宜增加测试样本数), 由多位领城专家判断自动化工具输出指标是否正确,确保自动化测试与人工判断的一致性.对于纯粹的分类任务,直接使用自动化工具计算指标.对于生成类等没有标准答案的测试任务,需进行人工评价后计算指标.
5.4通用评估指标
5.4.1分类任务评估指标
图像等)划分到预定类别中的能力: 本类指标适用于判别性任务(如命名实体识别、异常项判定等),即模型将输入数据(如文本、
a)准确率:针对分类任务,计算模型预测中正确预测的总体比例,计算公式如下:
式中:
Accuracy--准确率;
b)精确率:针对二分类任务,计算模型预测为正例的结果中,实际为正例的比例,计算公式如下:
式中:
Precision--精确率: