中华人民共和国国家标准
GB 12200.1-90
汉语信息处理词汇 01部分:基本术语
Chinese information processing-VocabularyPart01:Fundamental terms
国家技术监督局发布
中华人民共和国国家标准
汉语信息处理词汇 01部分:基本术语
GB 12200.1-90
Chinese information processing-VocabularyPart 01:Fundamental terms
本词汇涉及到汉语信息处理的各个主要方面,其中包括基本术语、汉语和汉字、汉字编码、汉字识别、汉语语音处理、汉语理解、机器翻译、汉语信息处理设备、汉语信息处理系统软件、汉语信息处理技术应用及其他等约11个部分.在学科方面,本词汇具有相对的独立性和系统性.
1主题内容与适用范围
1.1主题内容本标准规定了最重要的或最基本的汉语信息处理术语,它们是其他各部分的基础.1.2适用范围 本标准适用于有关汉语信息处理领域的科研、设计、生产、使用、维护、管理、教学和出版等方面.
2引1用标准
GB2312信息交换用汉字编码字符集基本集GB5271数据处理词汇
3遵循的原则和规则
3.1词条词条是本标准为使用者提供的便于查检和参阅的基本单元.
3.2词条的组成
本标准的词条一般由下述几部分构成:a.索引号(不同语种文本都是一致的);b.术语;d.允许用的同义术语: c.术语的缩写;e.术语的英译名;I.术语的英文缩写;g,术语的定义;h.以“例:"开头的一个或几个示例; i以“注:"开头的一个或几个注释(用以说明术语应用的特殊情况);图、图表或表格,
3.3多义术语
当一个术语有几个不同的意义时,分别在不同的词条中给予定义,以便于译成其他语种.
3.4缩写
有些术语具有常用的缩写,但在定义、示例及注释中,不采用这种缩写.
3.5符号的用法
3.5.1圆括号的用法
有些术语使用时,在不引起误解的情况下,可以省略掉其中一部分,可省略的部分为黑体字,并用圆
括号括起,在定义、示例和注释中,只用完整的术语.
用形式或语法形式的. 有些术语后圆括号内的非黑体字,不是术语的组成部分,而是用来说明该术语的使用须知和特殊应
3.5.2方括号的用法
当几个术语使用同一个定义格式(个别词不相同)时,可将它们合并在一个词条中.个别不相同的词放在方括号中,表示可以替换方括号前面的词.方括号及其中的词在术语及定义中出现的顾序必须一致.
3.5.3黑体字与星号
术语在定义、示例和注释中用黑体字印剧时,表示该术语已在本词汇的其它词条中给过定义,并且只有它在另一词条中首次出现时才印或黑体字.
隔开.
3.6英译名
术语所对应的英文采用美国习用的拼法.
3.7索引1
本标准附有汉语索引和英文索引.索引包括本部分的全部术语.
根据汉语索引或英文索引,可查出术语正文的索引号.
4术语和定义
4.1基本术语
4.1.1一般术语
4.1.1.1语言信息处理language information processing用计算机对自然语言的音、形、义等信息进行处理,即对字、词、句、篇章的输入、输出、识别、分析、理解、生成等的操作与加工,4.1.1.2汉语信息处理Chinese information processing 用计算机对汉语的音、形、义等信息进行处理,有时又称中文信息处理.4.1.1.3汉字信息处理Chinese character information processing用计算机对汉字表示的信息进行的操作和加工,如汉字的输入、输出、识别等,4.1. 1.4汉字输入Chinese character input4.1.1.5汉字输出Chinese character output 利用汉字的形、音或相关信息通过各种方式,把汉字输入到计算机中去的过程,将计算机内以数据形式表示的汉字在显示终端、印字机等设备输出的过程.4.1.1.6多文种信息处理multilingual information processing4.1.1.7民族语言支撑能力National language supporntNLS(缩写) 在两种或两种以上语言文字字符集编码体系基础上,实现对多文种信息的兼容处理.使计算机具备能够处理民族语言的开发能力.例:中文化,汉字化,
4.1.2语言文字
4.1.2.1语言languge为了传递信息面使用的一组字符、约定和规则. 注:同GB5271.7的07.02.01条.4.1.2.2自然语言matural language一种语言,其规则是根据当前流行的用法而不是用明确的形式规定的.4.1.2.3人工语言artificial language 注:网GB5271.7的07.02.03条.一种语言,其规则在使用前已明确地规定了.注:同GB5271.7的07.02.03条,4.1.2.4受限语言restricted languagc 在词汇、句法、语义及语用等方面受到人为限制的自然语言的真子集.4.1.2.5语言模型inguistic model对自然语言的数学描述.分为生成模型、分析模型和识别模型三种.4.1.2.6语音speech sound4.1.2.7文字script 人类发出的能表达一定意义的声音.人类记录和传达语言的书写符号系统.4.1.2.8词word最小的能独立运用的语言单位.4.1.2.9词汇vocabulary 例:大、国家、奥林匹克.一种语言中的词与固定词组的集合,4.1.2.10语法grammar语言的结构规则.自然语言的语法具有一定的民族特点和相当的稳定性.4.1.2.11句法syntax 词或词组之间的组合规则,4.1.2.12语义semantics调或词组与它们的含义之间的关系.4.1.2.13语用pragmatics 调或词组与它们的解释和使用之间的关系.4.1.2.14文本text语言的符号串,文字信息处理的对象.4.1.2.15语言资料库corpus4.1.2.16语言知识库language knowledge base 文本的有序集合,各种分类、检索、综合、比较的基础.计算机所存储的语言知识的集合.它是计算机从语音、文字、词汇、句法、语义、语用等角度对语言进行信息处理的基础.4.1.2.17计算语言学putational linguistics频统计、语音的识别与合成、机器词典的编墓、机器翻译、自然语言理解、计算机的自然语言 语言学的一个分支学科.它应用计算机技术来研究和处理语言文字,内容包括:字频和词接口等.4.1.3汉语和汉字
GB 12200.1-90汉族的语言.中国境内主要的通用语言,也是国际通用语言之一.属汉藏语系,4.1.32中文Chinese 特指汉语.4.1.3.3现代汉语contemporary Chinese language现代汉民族语言,包括它的主要地城分支:北方话、吴语、湘语、赣语、粤语、客家话、闽语等.它的规范化语言是普通话.4.1.3.4普通话Putonghua 现代汉民族共同语.它是规范化的现代汉语,以北京语音为标准音,以北方话为基础方言,以典范的现代白话文著作为语法规范.4.1.3.5仅语拼音(方案)scheme of the Chinese phonetic alphabet,Pinyin给汉字注音和拼写汉语普通话语音的方案,方案采用26个拉丁字母,有声母表和韵母表4.1.3.6汉字Chinese character Hanzi 及拼写规则,对声调符号和隔音符号的标记也有规定.记录汉语的书写符号系统.汉字也被其他一些国家或民族用作为书写符号.4.1.3.7现代通用汉字current monly-usedChinese character现代通行的记录现代汉语的书写符号系统. 例:(1)GB 2312.(2)(现代汉语通用字表》,4.1.3.8汉字属性attribute of Chinese characters例:笔画、笔顺、部首、部件、汉语拼音方案、四角号码等. 汉字本身所具有的音、形、义三方面的特征及附加的有关特征.4.1.3.9汉字属性字典Chincse character attribute dictionary包括汉字部首、汉语拼音方案、笔画数、笔顺、使用频度、组词能力、文字结构、标准部件、标准字形点阵码等属性及其电报码等相关信息的数据库或字典.4.1.3.10简化字simplified Chinese character 采用同音代替、改换声旁、草书稽化、偏旁简化类推等方法制定的一批笔画较少的汉字.这些字取代了对应的笔画较多的汉字作为通行的正体.特指1986年重新公布的《简化字总表》,共2235字.例:后[後],亿[億],发[登],说[说],难[].4.1.3.11繁体字unsimplified Chinese character 被简化字代替的笔画较多的汉字.“[][][][][]敢4.1.3.12异体字variant Chinese character汉字通常写法之外的一种音同、义同,只是字形笔画或结构不同的字.4.1.3.13分词单位word segmentation unit 例:升[升、隆],迹[路、路].泪[溪].汉语信息处理使用的、具有确定的语义和(或)语法功能的基本单位.4.1.3.14汉语分词Chinese word segmenting4.1.4汉字编码 从工程观点出发,按照特定的规范,对汉语按分词单位进行划分的过程.4.1.4.1汉字[汉语词语编码Chinesc character[Chinese word and phrase Jcoding按照一定的规则,对指定的汉字[汉语词语]集内的元素编制相应的代码,4.1.4.2汉字编码字符集Chinese character coded character set4