T/GBC 123-2026 东盟国家语料质量评测规范.pdf

文档页数：13

文档大小：4.52MB

文档格式：pdf

文档分类：团体标准

上传会员：匿名用户

上传日期：2026-04-25

最后更新：2026-04-25

T/GBC123-2026

东盟国家语料质量评测规范

Specification for quality assessment of ASEAN countries’corpus

广西物品编码与标准化促进会发布

前言1范围..2规范性引用文件3术语和定义，4缩略语.5评测框架.5.1评测对象 5.2评测总体流程6基础质量要求，7核心质量要求7.1评测维度7.2评测方法8质量等级评定9评测人员要求 9.1基本要求9.2专业技术能力要求9.3人员培训10仲裁流程.附录A（资料性）格式规范要求.附录B（资料性）核心质量评测维度B.1预训练语料核心质量评测维度B.2SFT核心质量评测维度. B.3RLHF核心质量评测维度. 6B.4ASR和TTS语料核心质量评测维度、B.5平行语料核心质量评测维度B.6价值观语料核心质量评测维度 B.7验证集核心质量评测维度附录C（资料性）评测报告.

前言

起草. 本文件按照GB/T1.1-2020《标准化工作导则第1部分：标准化文件的结构和起草规则》的规定

请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别专利的责任.

本文件由中国一东盟信息港股份有限公司提出.

本文件由广西物品编码与标准化促进会归口.

本文件起草单位：中国一东盟信息港股份有限公司、广西壮族自治区标准技术研究院、老挝科技与限公司、浪潮云信息技术股份公司、联通数据智能有限公司、北京面壁智能科技有限责任公司、三六零通信部数字政府管理中心、老挝工业与贸易部标准化与计量司、阿里云计算有限公司、科大讯飞股份有科技集团有限公司、中国移动通信集团广西有限公司、中兴通讯股份有限公司、广西达译科技有限公司、安徽飞数信息科技有限公司、老挝国立大学、北京海天瑞声科技股份有限公司、杭州君同未来科技有限公司、广西民族大学、北京晴数智慧科技有限公司、数据堂（北京）科技股份有限公司、整数智能信息技术（杭州）有限责任公司、马来西亚Maxeon科技、北京智源研究院、北京火山引擎科技有限公司、马来西亚Agmo集团、印度尼西亚AiSENSUM公司、广西大学、越南河内国家大学所属社会科学与人文大学、泰国INTERVECCenter、上海人工智能创新中心、泰中科技协会、泰国清迈职业技术学院、泰国北部职业教育推广与发展中心、央视国际网络有限公司、北京邮电大学、泰国彭世洛职业学院、人工智能省部共建协同创新中心（浙江大学）.

达万西翁宴、曲振斌、孟凡胜、陈扬、关业海、刘聪、刘丹、胡明婷、王一鸣、王宁、王斌峰、梁轶本文件主要起草人：李昌金、廖丁石、刘夏、罗宁、高健、施显俊、杨梦颖、塔维萨玛诺坦、拉晓、林伟家、贾守盛、梁舒昱、苏良良、罗鹏、郝乔波、林志远、温家凯、邓姿娴、李雨泓、王培养、德毅、潘剑宜、幸逸冰、麦克西米利恩瑞查德泰、朱利恩泰、郭聪辉、徐瑞晨、李涛、子谦、奥拉迪坎玛尼翁、王淳、杨明、韩蒙、索佳慧、李成龙、覃秀红、陈宇、李雅婧、罗磊、彭颖岚、陈黄智恒、阿赫玛德昂贡阿拉法、维韦克托马斯、覃希、张振荣、陈燕、裴城南、阮氏垂庄、庞利特金大龙、何聪辉、王广宇、王珊、李眶、阿迪叻暖西里、披迪帕宾洛、李志学、黄建杰、喻鹏、曲昭伟、王晓茹、蒂塔里詹他瓦、肖俊、邵健、汤永川.

与标准化促进会的许可外，不得以任何形式或任何手段复制、再版或使用本标准及其章节，包括电子本标准为广西物品编码与标准化促进会，除了用于国家法律或事先得到广西物品编码版、影印件，或发布在互联网及内部网络等.

东盟国家语料质量评测规范

1范围

本文件界定了东盟国家语料质量评测涉及的术语和定义，规定了评测框架、基础质量要求、核心质量要求、质量等级评定、评测人员要求、仲裁流程等内容.

本文件适用于东盟国家语料的质量评测工作.

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款.其中，注日期的引用文件，仅该日期对应的版本适用于本文件：不注日期的引用文件，其最新版本（包括的修改单）适用于本文件.

GB/T5271.1-2000信息技术词汇第1部分：基本术语GB/T33475.3-2018信息技术高效多媒体编码第3部分：音频

3术语和定义

GB/T33475.3-2018和GB/T5271.1-2000界定的以及下列术语和定义适用于本文件.

采样频率samplingfrequency

在单位时间内，从连续信号中提取样本的次数.

[来源：GB/T33475.3-2018，3.9，有修改.]

位深bit depth

语音数据中用于表示每个采样点幅度的二进制位数.

监督微调supervised fine-tuning

利用人工标注的“指令一回答”数据对模型进行有监督训练的方法.

3.4

基于人类的强化学习reinforcementlearningfromhumanfeedback

通过人类对模型不同输出的偏好进行标注，建立一个奖励规则，根据奖励规则用强化学习算法训练监督微调后的模型.

3.5

鲁棒性robustness

模型在输入数据存在噪声、扰动、异常值时仍能保持稳定预测性能的能力.

下列缩略语适用于本文件.

ASR：自动语音识别（Automatic Speech Recognition）NFC：规范化形式C（Normalization Form C)RLHF：基于人类的强化学习（Reinforcement Learning from Human Feedback） PII：个人可识别信息（PersonalIdentifiableInformation）SER：句错率（Sentence Error Rate）SFT:监督微调（Supervised FineTuning) TTS：文本转语音（Text-To-Speech）WER：词错率（Word Error Rate）

资源链接请先登录（扫码可直接登录、免注册）

①本文档内容版权归属内容提供方。如果您对本资料有版权申诉，请及时联系我方进行处理（联系方式详见页脚）。
②由于网络或浏览器兼容性等问题导致下载失败，请加客服微信处理（详见下载弹窗提示），感谢理解。
③本资料由其他用户上传，本站不保证质量、数量等令人满意，若存在资料虚假不完整，请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成，用以平摊存储及运营成本。本站仅为用户提供资料分享平台，且会员之间资料免费共享（平台无费用分成），不提供其他经营性业务。

投稿会员：匿名用户