说明:收录全网最新的团体标准 提供单次或批量下载
UDC 681.3 : 809.51 L70 中华人民共和国国家标准 GB/T 13715-92 信息处理用现代汉语分词规范 Contemporary Chinese language word segmentation specification for information processing 1992-10-04发布 1993-06-01实施 国家技术监督局发布 (京)新登字023号 中华人民共和 国 国家标准 信息处理用现代汉语分词规范 GB/T 13715—92 * 中国标准出版社出版发行 北京西城区复兴门外三里河北街16号 邮政编码:100045 http://www.spc.net.cn 电话:63787337.、63787447 1993年3月第一版 2005年12月电子版制作 * 书号:155066·1-9287 版权专有侵权必究 举报电话:(010)68533533 中华人民共和国国家标准 信息处理用现代汉语分词规范 GB/T 137151992 Contemporary Chinese language word segmentation specification for information processing 1主题内容与适用范围 1.1主题内容 本规范规定了现代汉语的分词原则,以满足信息处理的需要。它对汉语信息处理的规范化,对各种 汉语信息处理系统之间的兼容性有重要的作用。 1.2适用范围 本规范适用于汉语信息处理各领域,其他行业和有关学科可以参考使用。 汉语信息处理各领域可以根据其专门需求,进一步补充和细化本规范的规定。 2引用标准 GB12200汉语信息处理词汇 3术语 以下术语引自GB12200。 3.1汉语信息处理 用计算机对汉语的音、形、义等信息进行的处理。 3.2词 最小的能独立运用的语言单位。 3.3词组 由两个或两个以上的词,按一定的语法规则组成,表达一定意义的语言单位。 3.4分词单位 汉语信息处理使用的、具有确定的语义或语法功能的基本单位。它包括本规范的规则限定的词和词 组。 3.5汉语分词 从信息处理需要出发,按照特定的规范,对汉语按分词单位进行划分的过程。 4概述 本规范以信息处理应用为目的,根据现代汉语的特点及规律,规定现代汉语的分词原则。 本规范用下划线“ ”作为分词单位标记。 4.1空格或标点符号是计算机中分词单位的分隔标记。作为分隔标记的标点符号有:句号、逗号、顿号、 分号、冒号、问号、叹号、引号、括号、破折号、省略号、书名号、间隔号、连接号及符号“/”等。 4.2二字或三字词,以及结合紧密、使用稳定的二字或三字词组,一律为分词单位。例如: 国家技术监督局1992-10-04批准 1993-06-01实施 1 GB/T13715- 5—1992 发展 可爱 红旗 对不起自行车青霉素 4.3四字成语一律为分词单位。例如: 胸有成竹欣欣向荣 四字词或结合紧密、使用稳定的四字词组,一律为分词单位。例如: 社会主义春夏秋冬由此可见 L.L:五字或五字以上的谚语、格言等,分开后如不违背原有组合的意义,应予切分。倾如: 时间就是生命 失败是成功之母 人心齐,泰山 结合紧密、使用稳定的词组,分开后如违背原有组合的意义,或影响进一步的处理,则不予切分。例 如: 不管三七二十一 4.5惯用语和有转义的词或词组,在转义的语言环境下,律为分词单位。例如: 妇女能顶半边天 他真小气,象个铁公鸡 4.6略语一律为分词单位。例如: 科技奥运会工农业 L.7分词单位加形成儿化音的“儿”,一律为分词单位。例如: 花儿悄悄儿玩儿 4.8在现代汉语中出现的非汉字符号,例如其他语言的字符串、数学符号、化学符号、阿拉伯数字等,仍 保留原有形式。例如: CAD CO :=cm 12471 298 576 3.14 .9现代汉语中其他语言的汉字音译外来词,不予切分。如: 巧克力 吉普 4.10不同的语言环境中的同形异构现象,按照具体语言环境的语义,根据本规范的规定进行切分。例 如: 把手抬起来 这个把手是木制的 5具体说明 为叙述方便,本规范沿用了把词分为名词、动词、形容词、代词、数词、量词、副词、介词、连词、助词、 语气词、叹词、象声词等十三类的方法。 5.1名词 5.1.1普通名词 5.1.1.1二字的名词或结合紧密的二字名词词组,一律为分词单位。例如: 火车牛肉钢铁 5.1.1.2结合紧密,分开后如违背原有组合的意义的名词性词组,一律为分词单位。例如: 有功功率被子植物 5.1.1.3由形容词加名词组成的词组,应予切分。倾如: 绿叶 小床 形容词加名词组成的有转义的词组,一律为分词单位。例如: 小媳妇 戴高帽儿 2 GB/T 137151992 5.1.1.4前加成分加名词性分词单位应为分词单位。例如: 阿哥 老鹰 非金属 超声波 5.1.1.5名词性分词单位加如下类型的后加成分: 家手性员 长头者 应为分词单位。例如: 科学家 拖拉机手 ,革命性 理发员 椅子 标准化 科长 木头 学者 名词性分词单位后如有多个后加成分,则它们是一个分词单位。例如: 物理学家 5.1.1.6名词性分词单位前后如有前加成分和后加成分,则它们是一个分词单位。例如: 非党员 超导性 5.1.1.7各类专业的基本术语为分词单位。例如: 加速度 中央处理器 5.1.1.8方位词应予单独切分。例如: 桌子上 长江以北 5.1.1.9除“人们”之外,仅表示前一个名词性分词单位复数的“们”单独切分。例如: 朋友们学生们 但是“哥儿们爷们儿”等是分词单位。 5.1.1.10时间名词或词组的分词规则如下: a. 一年的十二个月份以及每周的七天,律为分词单位。例如: 五月 元月 3 月 星期日 礼拜三 b. “年、日、时、分、秒”分别为分词单位。例如: 1988年3月15日 11时42分8秒 C. “前、后、上、下、大前、大后”等直接与时间名词或量词组合时,它们为一个分词单位。例如: 前天 后年 上星期 下月 大前天 大后年 d. “初”加十以内的数字一律为分词单位。例如: 初二 初八 5.1.2专有名词 5.1.2.1人名、称谓等处理如下: a. 汉族人名的姓和名分别单独切分。例如: 张胜利 欧阳海 b. 其他国家、其他民族的人名按其习惯形式切分。例如: 卡尔·马克思 牛顿 小林多喜二 才旦卓玛 C. 带职务、职称的称呼一律切分。例如: 张教授王部长李师傅 d. 简称、尊称等为分词单位。例如: 老张小李郭老陈总 带排行的亲属称谓一律切分。例如: 三叔大女儿 3 GB/T 13715 - 1992 5.1.2.2民族名、地名中的“族、省、市、州、县、乡、区、江、河、山”等应单独切分。但包括“族、省、市、州、 县、乡、区、江、河、山”等只有两个字的民族名、地名,则不予切分。例如: 汉族哈萨克族北京市浙江省正定县长江忻县 专名部分不能单独存在而保持原有意义的地名,不予切分。例如: 牡丹江横断山 街、路、村镇名称,各大洋和各大海一律为分词单位。例如: 长安街学院路周口店刘家村大西洋地中海 5.1.2.3国家全名一律为分词单位。例如: 中华人民共和国大不列颠及北爱尔兰联合王国 5.1.2.4组织、机构、单位的全名按组成其全名的分词单位切分。例如: 联合国教科文组织 中国共产党 5.1.2.5商品牌号、品种、产品系列名称中的专有名词与普通名词-律分别切分。例如: 永久牌中华烟牡丹亚型 5.2动词 5.2.1动词的重叠形式较多,具体规定如下: a...单字动词重叠使用为一个分词单位。例如: 看看动动 b. 二字动词性分词单位的重叠方式“AABB”为一个分词单位。例如: 来来往往拉拉扯扯 C. “AAB、ABAB”重叠形式的动词词组应予切分。例如: 说说看研究研究 d.. “AA、A了A、A了一A"重叠形式的动词词组应予切分。例如: 谈二谈想二想 读二读想了想 想了二想 5.2.2动词前的否定副词一律单独切分。例如: 不写·不能没研究未完成 5.2.3用肯定加否定的形式表示疑问的动词词组一律切分,不完整的则不予切分。例如: 说没说看不看相信不相信 相不相信 5.2.4动宾结构的词或结合紧密、使用稳定的二字动宾词组,不予切分。例如: 开会跳舞 解决吃饭问题 孩子该念书了 结合不紧密或有众多与之相同结构词组的动宾词组律切分。例如: 吃鱼学滑冰 写信(写文章;写论文写书·) 动宾结构的词或词组如中间插入其他成分,则应予切分。例如: 吃两顿饭 跳新疆舞 5.2.5动补结构的二字词或结合紧密、使用稳定的二字动补词组,不予切分。例如: 打倒,提高加长做好 “2十1”或“1十2"结构的动补词组一律切分,三字以上的动补结构词组也一律切分。例如: 4 GB/T13715—1992 整理好说清楚解释清楚 动补结构的词或词组如中间插入“得、不”,应予切分。例如: 打得倒提不高 5.2.6偏正结构的词,以及结合紧密、使用稳定的偏正结构的词组,不予切分。否则应予切分。例如: 胡闹瞎说死记 早来晚走重 5.2.7复合趋向动词一律为分词单位。例如: 出去进来 当插人“得、不”时应予切分。例如: 出得去进丕来 5.2.8动词与趋向动词结合的词组一律切分。例如: 寄来 跑出去 5.2.9单字动词无连词并列,并且均保持各自独立动词意义的词组,一律切分。例如: 苣盖 听说读写 多字动词无连词并列,一律切分。例如: 调查研究 宣传鼓动 5.3形容词 5.3.1形容词的重叠形式“AA、AABB、ABB、AAB、A里AB”一律为分词单位。例如: 大大 高高 高高兴兴 匆匆忙忙 绿油油 红通通 蒙蒙亮 马里马虎

.pdf文档 GB-T 13715-1992 信息处理用现代汉语分词规范

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
GB-T 13715-1992 信息处理用现代汉语分词规范 第 1 页 GB-T 13715-1992 信息处理用现代汉语分词规范 第 2 页 GB-T 13715-1992 信息处理用现代汉语分词规范 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2025-07-12 17:10:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。