T/GBC 122-2026
Specification for development of ASEAN countries'corpus
广西物品编码与标准化促进会 发布
目次
前言 III
1范围..2规范性引用文件3术语和定义4缩略语.5建设规划..5.1需求分析 5.2总体规划.5.3语料库结构5.4语料数据格式6语料采集, 5.5建设管理.6.1采集方式.6.2采集流程,7语料预处理..7.1数据清洗,7.3数据脱敏. 7.2数据转换.7.4数据验证,8语料标注,8.1标注基本原则8.2SFT语料 8.3RLHF语料8.4价值观语料8.5平行语料.8.6ASR语料 8.7TTS语料9验证集构建9.1核心要求.9.2构建原则,10语料质检.10.1质检方法, 10.2质检流程,11语料存储和管理.11.1语料分类与归档11.2备份与恢复.
11.3元数据管理11.4存储策略
T/GBC 122-2026
前言
起草. 本文件按照GB/T1.1一2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定
请注意本文件的某些内容可能涉及专利.本文件的发布机构不承担识别专利的责任.
本文件由中国一东盟信息港股份有限公司提出.
本文件由广西物品编码与标准化促进会归口.
本文件起草单位:中国一东盟信息港股份有限公司、广西壮族自治区标准技术研究院、老挝科技与通信部数字政府管理中心、老挝工业与贸易部标准化与计量司、阿里云计算有限公司、科大讯飞股份有 限公司、浪潮云信息技术股份公司、联通数据智能有限公司、北京面壁智能科技有限责任公司、三六零科技集团有限公司、中国移动通信集团广西有限公司、中兴通讯股份有限公司、广西达译科技有限公司、安徽飞数信息科技有限公司、老挝国立大学、北京海天瑞声科技股份有限公司、杭州君同未来科技有限 公司、广西民族大学、北京晴数智慧科技有限公司、数据堂(北京)科技股份有限公司、整数智能信息技术(杭州)有限责任公司、马来西亚Maxeon科技、北京智源研究院、北京火山引擎科技有限公司、马来西亚Agmo集团、印度尼西亚AiSENSUM公司、广西大学、越南河内国家大学所属社会科学与人文大学、 泰国INTERVECCenter、上海人工智能创新中心、泰中科技协会、泰国清迈职业技术学院、泰国北部职业教育推广与发展中心、央视国际网络有限公司、北京邮电大学、泰国彭世洛职业学院、人工智能省部共建协同创新中心(浙江大学).
本文件主要起草人:李昌金、廖丁石、刘夏、罗宁、高健、何琛、杨霞、塔维萨玛诺坦、拉达万西翁赛、曲振斌、孟凡胜、陈扬、关业海、刘聪、刘丹、胡明婷、王一鸣、王宁、王斌峰、梁轶晓、林伟家、贾守盛、梁舒昱、苏良良、罗鹏、郝乔波、林志远、温家凯、邓姿娴、李雨泓、王培养、奥拉迪坎玛尼翁、王淳、杨明、韩蒙、索佳慧、李成龙、覃秀红、陈宇、李雅婧、罗磊、彭颖岚、陈德毅、潘剑 宜、幸逸冰、麦克西米利恩瑞查德泰、朱利恩泰、郭聪辉、徐瑞晨、李涛、赖子谦、黄智恒、阿赫玛德昂贡阿拉法、维韦克托马斯、覃希、张振荣、陈燕、装城南、阮氏垂庄、庞利特金大龙、晓茹、蒂塔里詹他瓦、肖俊、邵健、汤永川. 何聪辉、王广宇、王珊、李眶、阿迪叻暖西里、披迪帕宾洛、李志学、黄建杰、喻鹏、曲昭伟、王
与标准化促进会的许可外,不得以任何形式或任何手段复制、再版或使用本标准及其章节,包括电 本标准为广西物品编码与标准化促进会,除了用于国家法律或事先得到广西物品编码子版、影印件,或发布在互联网及内部网络等.
东盟国家语料库建设规范
1范围
集、语料预处理、语料标注、验证集构建、语料质检和语料存储和管理等内容. 本文件提供了东盟国家文本及语音语料库建设全生命周期的指导和建议,规定了建设规划、语料采
本文件适用于东盟国家语料库的建设工作.
2规范性引用文件
仅该日期对应的版本适用于本文件:不注日期的引用文件,其最新版本(包括的修改单)适用于本 下列文件中的内容通过文中的规范性引用面构成本文件必不可少的条款.其中,注日期的引用文件,文件.
GB/T15237-2025术语工作及术语科学词汇 GB/T36344信息技术数据质量评价指标GB/T45574-2025数据安全技术敏感个人信息处理安全要求
YD/T6225-2024大数据数据脱敏工具技术要求与测试方法
3术语和定义
GB/T15237-2025界定的以及下列术语和定义适用于本文件.
语料采集corpus collection
从建设规划阶段所确定的数据源中,系统性地收集语料库的原始语料.
对数据进行审查、校验和加工处理的过程,包括去噪、去重、编码转换、语言识别与过滤等步骤.
数据转换datatransform
将验证后的数据统一转化为标准化、便于处理的格式的过程.
基于人类的强化学习reinforcementlearningfromhuman feedback
监督微调后的模型. 通过人类对模型不同输出的偏好进行标注,建立一个奖励规则,根据奖励规则用强化学习算法训练
3.6
规范化形式CnormalizationformC
Unicode标准定义的一种字符规范化形式.先进行字符规范分解,再重新组合为预组合形式.
语料库corpus自然语言数据的集合.
4缩略语
下列缩略语适用于本文件.