团 丨体 标 准
大语言模型金融应用评测规范
Evaluation specification for large language models in financial applications
北京金融科技产业联盟 发布
保护文件
归属于该标准的发布机构,除非有其他规定,否则未经许可,此发行物及其章节不得以其他形式或任何手段进行复制、再版或使用,包括电子版、影印版,或发布在互联网及内部网络等.使用许可可与发布机构获取.
目次
前 言1范围.2规范性引用文件3术语和定义4缩略语.5系统性评测.6任务能力评测.7安全可信评测参考文献.
前言
本文件按照GB/T1.1-2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规则起草.
请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别这些专利的责任.
请注意对客等具有较大社会舆情风险的应用应遵照现行法规、政策和监管流程,进行相应备案等规范化管理.
本文件由北京金融科技产业联盟归口.
司、北京银联金卡科技有限公司、中国移动通信集团有限公司、神州数码信息服务集团股份有限公司、 本文件起草单位:北京金融科技产业联盟、中国工商银行股份有限公司、蚂蚁科技集团股份有限公上海淇毓信息科技有限公司、中兴通讯股份有限公司、中国邮政储蓄银行股份有限公司、北京国家金融科技认证中心有限公司、北京国家金融标准化研究院有限责任公司、兴业银行股份有限公司、浙商银行股份有限公司、中国联合网络通信有限公司、腾讯云计算(北京)有限责任公司、华为云计算技术有限公司、阿里云计算有限公司、北京百度网讯科技有限公司、同盾科技有限公司、马上消费金融股份有限 公司、清华大学无锡应用技术研究院
本文件主要起草人:黄程林、聂丽琴、黄本涛、刘宝龙、李甲长、夏知满、刘华杰、雷赛龄、金昕、孙曦、于飞、彭晋、胡师阳、杨波、方如利、齐贝贝、朱雨晴、薛春雨、张自奇、杜昕宸、杨剑、王述、谢馨、朱常宝、朱婧、陈鹏、洪文焕、窦永金、陈伟、谢彦丽、王帅强、唐卓、鲍思佳、韩竺吾、吕露 露、张笑冬、吴美学、胡圭、韩喆、王慧娟、全成、陈明、曹晓琦、祝晓庆、陶洁、郑淼、梅健、劳静诗、梁俊锋、黄翠婷、秦鹏飞、李宽、谢玉凤、曹祥
大语言模型金融应用评测规范
1范围
本文件规定了大语言模型及系统在金融领域应用的系统性、任务能力、安全可信的评测方法.本文件适用于开展大语言模型及系统应用的金融机构、产品提供商、第三方评测机构等.
2规范性引用文件
下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.其中,注日期的引用文件,仅该日期对应的版本适用于本文件,不注日期的引用文件,其最新版本(包括的修改单)适用于本文件.
T/BFIA055-2025《大语言模型金融应用技术要求》
3术语和定义
T/BFIA055一2025《大语言模型金融应用技术要求》界定的术语和定义适用于本文件.
4缩略语
T/BFIA055一2025《大语言模型金融应用技术要求》界定的缩略语适用于本文件.
5系统性评测
5.1响应时间
评测内容:按T/BFIA055-2025《大语言模型金融应用技术要求》中5.1的响应时间要求,确定评估内容.
评测方法:根据场景需求,构建一个包含长、中、短及不同类型的测试集,测试模型对不同间题的首token响应时间(TTFT),评估其平均时长.
5.2单次访问文本长度
评测内容:按T/BFIA055-2025《大语言模型金融应用技术要求》中5.2的单次访间文本长度要求,确定评估内容.
4096tokens,并实际构建相应长度的间题及进行测试验证. 评测方法:审核确认受测机构提供的模型参数中关于模型输入最大长度的取值,宜大于等于
5.3运行稳定性