GB/T 13715-1992信息处理用现代汉语分词规范.pdf

信息处理,分词,形容词,现代汉语,规范,推荐性国家标准
文档页数:12
文档大小:675.78KB
文档格式:pdf
文档分类:推荐性国家标准
上传会员:
上传日期:
最后更新:

UDC 681.3:809.51 170

中华人民共和国国家标准

GB/T 13715-92

信息处理现代汉语分词规范

Contemporary Chinese language word segmentation specificationforinformationprocessing

国家技术监督局发布

中华人民共和国国家标准信息处理用现代汉语分调规范 GB/T 1371592北京西城区复兴门外三里河北街16号 出版发行邮政编码:100045 电话:、63787447书号:-9287:(010)

中华人民共和国国家标准

信息处理用现代汉语分词规范

GB/T 137151992

for information processing

1主题内容与适用范围

1.1主题内容

本规范规定了现代汉语的分词原则,以满足信息处理的需要.它对汉语信息处理的规范化,对各种汉语信息处理系统之间的兼容性有重要的作用.

1.2适用范围

本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用. 汉语信息处理各领城可以根据其专门需求,进一步补充和细化本规范的规定.

2引用标准

GB12200汉语信息处理词汇

3术语

以下术语引自GB12200.

3.1汉语信息处理用计算机对汉语的音、形、义等信息进行的处理.

3.2词最小的能独立运用的语言单位.

3.3词组

由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位.

3.4分词单位

汉语信息处理使用的、具有确定的语义或语法功能的基本单位,它包括本规范的规则限定的词和词组.

3.5汉语分词

从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程.

4概述

本规范以信息处理应用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则.本规范用下划线”“作为分词单位标记.

4.1空格或标点符号是计算机中分词单位的分隔标记,作为分隔标记的标点符号有:句号、逗号、顿号、 分号、冒号、向号、叹号、引号、括号、破折号、省略号、书名号、间隔号、连接号及符号"/等.4.2二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位.例如:

发展可爱红旗对不起自行车青霉素

4.3四字成语一律为分词单位.例如:

四字词或结合紧密、使用稳定的四字词组,一律为分词单位,例如: 胸有成竹欣欣向荣社会主义春夏秋冬由此可见

.4五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分.例如:

结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分.例如:

不管三七二十二

4.5惯用语和有转义的词或词组,在转义的语言环境下,一律为分词单位.例如:妇女能顶半边天他真小气,象个铁公鸡

4.6略语一律为分词单位.例如: 科技奥运会工农业

.7分词单位加形成儿化音的“儿”,一欲为分词单位.例如:花儿悄悄儿玩儿

4.8在现代汉语中出现的非汉字符号,例如其他语言的字符串、数学符号、化学符号、阿拉伯数字等,仍保留原有形式.例如:

.9现代汉语中其他语言的汉字音译外来词,不予切分,例如:

巧克力吉普

4.10不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据本规范的规定进行切分,例如:

把手拍起来这个把手是木制的

5具体说明

语气词、叹词、象声词等十三类的方法. 为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、

5.1名词

5.1.1普通名词

5.1.1.2结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位,例如:有功功率被子植物

5.1.1.3由形容试加名试组成的试组,应予切分.贺如:

绿叶小床 形容词加名词组成的有转义的词组,一律为分词单位,例如:小媳妇 戴高帽儿

5.1.1.4前加成分加名词性分词单位应为分词单位,例如:

阿哥 老鹰 非金属 超声波

5.1.1.5名词性分词单位加如下类型的后加成分:

家手性员子化长头者

应为分词单位.例如:

科学家拖拉机手革命性理发员椅子 标准化科长木头 名词性分词单位后如有多个后加成分,则它们是一个分词单位,例如: 学者物理学家

5.1.1.6名词性分词单位前后如有前加成分和后加成分,则它们是一个分词单位.例如:

5.1.1.7各类专业的基本术语为分词单位.例如:

加速度中央处理器

5.1.1.8方位词应予单独切分.例如:

桌子上长江以北

5.1.1.9除“人们"之外,仅表示前一个名词性分词单位复数的“们”单独切分.例如:

5.1.1.10时间名词或词组的分词规则如下:

a.一年的十二个月份以及每周的七天,一律为分词单位,例如:五月 星期日 礼拜三 元月 3月b.“年、日、时、分、秒”分别为分词单位.例如:1988年3月15日11时412分8秒

前天 后年 上星期下月 大前天 大后年

d.“初”加十以内的数字一律为分词单位,例如:初一初八

5.1.2名词

5.1.2.1人名、称调等处理如下:

a.汉族人名的姓和名分别单独切分.例如:张胜利欧阳海

b.其他国家、其他民族的人名按其习惯形式切分.例如:

卡尔马克思生顿小林多喜二才旦卓玛

c.带职务、职称的称呼一律切分、例如:

张教授王部长李师傅

d.简称、尊称等为分试单位.例如:

老张小李郭老陈总

三叔大女儿

e.带排行的亲属称谓一律切分.例如:

资源链接请先登录(扫码可直接登录、免注册)
①本文档内容版权归属内容提供方。如果您对本资料有版权申诉,请及时联系我方进行处理(联系方式详见页脚)。
②由于网络或浏览器兼容性等问题导致下载失败,请加客服微信处理(详见下载弹窗提示),感谢理解。
③本资料由其他用户上传,本站不保证质量、数量等令人满意,若存在资料虚假不完整,请及时联系客服投诉处理。
④本站仅收取资料上传人设置的下载费中的一部分分成,用以平摊存储及运营成本。本站仅为用户提供资料分享平台,且会员之间资料免费共享(平台无费用分成),不提供其他经营性业务。
投稿会员:zidan
我的头像

您必须才能评论!

手机扫码、免注册、直接登录

 注意:QQ登录支持手机端浏览器一键登录及扫码登录
微信仅支持手机扫码一键登录

账号密码登录(仅适用于原老用户)