T/TAC 1-2018 语料库通用技术规范 征求意见稿.pdf

TAC,语料库,其他规范
文档页数:19
文档大小:784.84KB
文档格式:pdf
文档分类:其他规范
上传会员:
上传日期:
最后更新:

TAC

中国翻译协会标准

T/TACxxxXx

语料库通用技术规范

征求 General specificationsforcorpus

中国翻译协会 发布

前言

中国翻译协会是包括翻译与本地化服务、语言教学与培训、语言技术工具开发、语言相关咨询业务在内的语言服务行业的全国性组织.制定语言服务规范,推动行业有序健康发展,是中国翻译协会的工作内容之一.

近年来,随着人工智能、语言服务、学术研究和语言教学的发展,语料库交易活动日益活跃.为了更好地规范语料库交易市场,推进语料库在人工智能和语言服务、学术研究及其他相关领域中的应用,特编制《语料库通用技术规范》.

本规范起草单位:上海交通大学、北京大学、北京外国语大学、中国人民解放军外国语学院、同济大学、东南大学、南京师范大学、 浙江大 浙江财经大学、中国社会科学研究院、中国标准化研究院、 中译语通科技股份有限公司、阿里巴巴(中国)网络技术有限公司、华为技术有限公司、 传神语联网网络科技股份有限公司、北京中译天凯教育服务有限公司、成都优译信息技术股份有限公司、杭州中语科技有限公司、苏州联跃科技有限公司等机构的专家共同起草.

本规范主要起草人:胡开宝杨平、罗慧芳、张雪涛、陈圣权、吴永波、谢凝、彭成超、许文胜、李爱军、梁红时 王海涛、王海波、李洁、潘轶岑、何征宇、刘四元、蔡方仁、俞敬松 高志军、张威、程乐、严志军、黎昌抱、易绵竹、毕玉德、郭庆、管新潮、田绪军、李婵、李晓倩、胡昂、任才淇等.

本规范按照GB/T1.1-2009给出的规则起草.

本规范由中国翻译协会提出并归口.

目录

1.适用范围,2.规范性引用文件3.术语与定义4.建设与加工4.1建设流程4.2语料采集.4.3语料预处理,4.4语料标注4.5语料对齐 求意见4.6语料库生成5.管理与维护..5.1语料的分类5.2语料库的分类.6.交易与共享.. 106.1语料库描述 106.2语料库评价6.3语料库交易 15

附录:参考文献 16

1.适用范围

本标准侧重于描述并规定语料库的建设与加工、管理与维护、交易与共享.其他关于语料库的规范将在之后以系列标准的形式予以发布.

通过实施本标准,语料库提供方可以证明其语料符合语料库标准,能够满足基本的语料使用要求:语料库使用方可以判断语料库是否能够用于某特定用途.

2.规范性引用文件

下列文件对本文件的应用是必不可少的.凡标注日期的引用文件,仅标注日期的版本适用于本文件.凡不标注日期的引用文件,其最新版本(包括的修改)适用于本文件.

中国国家标准GB13715《信息处理用现代汉语分词规范》:

国际标准ISO 639 Codesfor theRepresentation of Names of Languages(《语种名称代码》):

国际标准ISO3166TerminologyBulletin-CountryNames(《国家名称用语公报》):

中国国家标准GB/T19682-2005《翻译服务译文质量要求》:

国际公约Berne Conventionfor theProtectionof LiteraryandArtisticWorks《保护文学艺术作品伯尔尼公约》.

3.术语与定义

为便于使用,以下列出主要术语和定义.

3.1语料

语言材料或语言应用的样本.

3.2语料库

由依据一定抽样方法收集的自然出现的语料(3.1)所构成的电子数据库,是按照一定目的和方法进行选择并有序排列的数据汇集.

3.3形符

语料库(3.2)中出现的词形,如go、goes、went、going视为4个英语词形.

3.4句对

一个完整的语句(通常以句号、问号和感叹号等为语句标记)和与之内容对应的译文视为一个句对,句对可以是n对n的,这里的n为非负整数.

3.5库容

语料库(3.2)的容量,即语料库的 大小.面向学术研究的语料库(3.2)通常以形符(3.3)总数为单位来计算库容:面向人工智能和语言服务的语料库(3.2)通常以句对(3.4)为单位来计算库容

3.6语料库设计

语料库(3.2建设者对语料(3.1)的规模、领域、体裁、语种、语料的加工程度以及语料的应用领域等相关参数进行设定.

3.7语料采集

将收集到的不同介质语料(3.1)转写为可机读的格式或直接利用现有的电子文本.

3.8语料清洗

使用软件消除语料(3.1)中的乱码、多余回车、空格、空行等杂质.

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。

投稿会员:匿名用户
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)