UDC 681.3:809.51 170
中华人民共和国国家标准
GB/T 13715-92
Contemporary Chinese language word segmentation specificationforinformationprocessing
国家技术监督局发布
中华人民共和国国家标准信息处理用现代汉语分调规范 GB/T 1371592北京西城区复兴门外三里河北街16号 出版发行邮政编码:100045 电话:、63787447书号:-9287:(010)
中华人民共和国国家标准
信息处理用现代汉语分词规范
GB/T 137151992
for information processing
1主题内容与适用范围
1.1主题内容
本规范规定了现代汉语的分词原则,以满足信息处理的需要.它对汉语信息处理的规范化,对各种汉语信息处理系统之间的兼容性有重要的作用.
1.2适用范围
本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用. 汉语信息处理各领城可以根据其专门需求,进一步补充和细化本规范的规定.
2引用标准
GB12200汉语信息处理词汇
3术语
以下术语引自GB12200.
3.1汉语信息处理用计算机对汉语的音、形、义等信息进行的处理.
3.2词最小的能独立运用的语言单位.
3.3词组
由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位.
3.4分词单位
汉语信息处理使用的、具有确定的语义或语法功能的基本单位,它包括本规范的规则限定的词和词组.
3.5汉语分词
从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程.
4概述
本规范以信息处理应用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则.本规范用下划线”“作为分词单位标记.
4.1空格或标点符号是计算机中分词单位的分隔标记,作为分隔标记的标点符号有:句号、逗号、顿号、 分号、冒号、向号、叹号、引号、括号、破折号、省略号、书名号、间隔号、连接号及符号"/等.4.2二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位.例如:
发展可爱红旗对不起自行车青霉素
4.3四字成语一律为分词单位.例如:
四字词或结合紧密、使用稳定的四字词组,一律为分词单位,例如: 胸有成竹欣欣向荣社会主义春夏秋冬由此可见
.4五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分.例如:
结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分.例如:
不管三七二十二
4.5惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位.例如:妇女能顶半边天他真小气,象个铁公鸡
4.6略语一律为分词单位.例如: 科技奥运会工农业
.7分词单位加形成儿化音的“儿”,一欲为分词单位.例如:花儿悄悄儿玩儿
4.8在现代汉语中出现的非汉字符号,例如其他语言的字符串、数学符号、化学符号、阿拉伯数字等,仍保留原有形式.例如:
.9现代汉语中其他语言的汉字音译外来词,不予切分,例如:
巧克力吉普
4.10不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据本规范的规定进行切分,例如:
把手拍起来这个把手是木制的
5具体说明
语气词、叹词、象声词等十三类的方法. 为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、
5.1名词
5.1.1普通名词
5.1.1.2结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位,例如:有功功率被子植物
5.1.1.3由形容试加名试组成的试组,应予切分.贺如:
绿叶小床 形容词加名词组成的有转义的词组,一律为分词单位,例如:小媳妇 戴高帽儿
5.1.1.4前加成分加名词性分词单位应为分词单位,例如:
阿哥 老鹰 非金属 超声波
5.1.1.5名词性分词单位加如下类型的后加成分:
家手性员子化长头者
应为分词单位.例如:
科学家拖拉机手革命性理发员椅子 标准化科长木头 名词性分词单位后如有多个后加成分,则它们是一个分词单位,例如: 学者物理学家
5.1.1.6名词性分词单位前后如有前加成分和后加成分,则它们是一个分词单位.例如:
5.1.1.7各类专业的基本术语为分词单位.例如:
加速度中央处理器
5.1.1.8方位词应予单独切分.例如:
桌子上长江以北
5.1.1.9除“人们"之外,仅表示前一个名词性分词单位复数的“们”单独切分.例如:
5.1.1.10时间名词或词组的分词规则如下:
a.一年的十二个月份以及每周的七天,一律为分词单位,例如:五月 星期日 礼拜三 元月 3月b.“年、日、时、分、秒”分别为分词单位.例如:1988年3月15日11时412分8秒
前天 后年 上星期下月 大前天 大后年
d.“初”加十以内的数字一律为分词单位,例如:初一初八
5.1.2名词
5.1.2.1人名、称调等处理如下:
a.汉族人名的姓和名分别单独切分.例如:张胜利欧阳海
b.其他国家、其他民族的人名按其习惯形式切分.例如:
卡尔马克思生顿小林多喜二才旦卓玛
c.带职务、职称的称呼一律切分、例如:
张教授王部长李师傅
d.简称、尊称等为分试单位.例如:
老张小李郭老陈总
三叔大女儿
e.带排行的亲属称谓一律切分.例如: