三字歧义链自动分词方法

phantom

浏览: 160036 次

最近访客更多访客>>

namezhou

pistolove

jones868

cxp111

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

交通 C C++C#企业应用

三字歧义链自动分词方法

(张翠英)(山西大学信息管理系，太原030006)
(亢临生)(山西大学计算中心，太原030006)Three-words Ambiguity Chain and Word Segmentation

Zhang Cuiying
(Department of Information Management,Shanxi University,Taiyuan 030006)
Kang Linsheng
(Computer Centre,shanxi University,Taiyuan 030006)1　分析过程(如构词法、构形法、句法、语义等)，设计出解决三字歧义链问题的实用分词规则。
　　具体分析过程可概括为图1。
2.1　分析结果120万字。在分析过程中得出如下一些技术数据：
　　分词词库规模：50012条
　　二字词规模：32826条(占词库词条的66%)
　　三字串库规模：636781条
　　分析真实语料：120万字
　　语料中出现的三字链次：15972次
　　其中，只出现一次的三字链：3625次，重复性出现的三字链：2332次
　　上述数据尽管只是对120万字原语料进行分析的结果，但在120万语料中，包含了《人民日报》各栏目的内容，题材比较广泛，涉及到了社会科学和自然科学多方面的内容，对它的研究结论具有一定的实用价值。从原理上讲，就三字歧义库规模而言，出现三字歧义链的概率可能会相当大，但从真实语料中的搜索结果来看，大多数的三字歧义链在语言的实际应用中根本不会出现，因而，无需分析所有可能的三字歧义链。实际上，只对真实语料中出现的三字歧义链进行分析、研究、总结其规律和解决正确切分的方法，即能达到实用的目的。

2.2　三字歧义链分词特性(MM法)，并辅助一些特性词的处理规则(数字词规则、人名规则、前后缀规则、叠加成分规则、歧义规则等)^{［2］MM法的特点，三字歧义链按照前两个字的特性进行分类如下：

　　(1)三字链本身在切分时，应合成为一个词，而无需再分：1988年1月由温贝托大夫主持”等。3.1　分词方法的基本思路

　　目前的分词算法多种多样，基本上可分为两大类：机械性分词和理解性分词法。后者可谓理想的方法，但在语法分析、语义分析乃至篇章理解还没有得到解决之前，其分词实用系统主要采用机械分词法，但实际上纯机械性分词也无人在用，一般都使用介于二者之间的某种分词法。

　　在我们开发的分词系统中，分词法的基本思想是：在分词词库中收入一定量的实用词及一些具有某种特性的字/词(如：前缀、后缀，基数字、词素、姓氏、单字词等)，并对一些特性字/词或实用词加入一定分词特性信息。分词时，首先利用MM法从字串中匹配选出一个词/特性字，然后根据初选的词/字的分词特性调用相应规则，进行切分结果的调整，以保证分词的正确性。

3.2　三字歧义链切分规则

　　对可能产生歧义切分的词(即三字链中的前二字)根据分词特点及前述的特性分类共使用了三种分词特性代码：PT(普通词代码：当初分出该词后无需进行歧义处理，即把该词作为分词结果，系统继续后继字串处理，前述［2］属此种情况)；HH(后合特性代码：分出此类词后，系统要检测，此词的尾字是否与其后继字串可合成为词，若存在词，则第一字为词，第二字与后继字/字串组成词，前述［4］属此种情况)；QY(即可能产生歧义切分，需用一组规则进行处理，前述［3］、［5］、［6］即属这种情况)。

　　另外，对［1］类情况根据MM法特点，三字词优先被选出，因而切分时，不再进行处理即可(实际切不出前两字或后两字组成的词)；对［7］类问题应归于专用名的切分问题^［3］，在此不作论述。

　　下面对切分出分词特性为QY和HH的词后的调整规则进行论述。设：CW：当前词(即分词特性为QY)；其中C，W分别为字。

　　P=P₁P₂……：CW的后继字串；其中P₁，P₂，…分别为单字。

　　PI：P中以P_i打头的子字串。

　　含词：字串最左端含二字或二字以上的词(左字串为词)规则：

　　(1)若WP不含词，则CW切分为词。

　　(2)若WP₁为词，P1不含词则：

　　若P₁为单字词且C为非单字词，或P₁为后缀且CW为非拒合(即不能加后缀成份)，则CW切分为词，否则C切分为词。

　　(3)若WP为词则顺序检测P₂P₃…，直至P_n不含词。

　　① 若从C至P_n的字数为偶数，则CW切分为词，否则：

　　② 若C为词素且P₁为非词素，则CW切分为词，否则：

　　③ 若C为单字词且P₁为词素，则C切分为词，否则：

　　④ 若存在某个含词的P_k的分词特性为hh，则当C至P_k为偶数时，CW切分为词，否则：

　　⑤ 在CP中检索出第一个特性为单字词的字，或姓氏、前缀、后缀字p_k且p_k含词，则当c至pk为偶数时，CW切分为词，否则，C切分为词。

　　例如：“野生动物种类最多的国家之一”，包含野生动、生动物、动物种、物种类四个三字歧义链，在初分出“野生”后，根据其分词特性调用上述规则，C=野、W=生、P₁=动、P₂=物、P₃=种、P4=类、P4=类最多的国家之一，而P4不含词，因从C至P₄字数为偶数，而能切分出：“野生”为正确结果。}。根据
　　在我们开发的实用分词系统中采用的是最大匹配法
　　对三字歧义链的分析基础是在分词系统软件中使用的分词词库及摘自《人民日报》不同时期、不同栏目的真实语料共计

摘要　　歧义问题是自动分词系统中要解决的主要问题之一。本文介绍一种在最大匹配法基础上，根据大量的真实语料中出现的歧义现象，把可能产生歧义切分的词进行特性分类，对每类确定一组规则进行处理。
关键词　　歧义　分词特性　分词系统

AbstractThe ambiguity is one of the important problem that need to solve in the automatic word segmentation.It is introduced in this paper that the maximum matching method which can be used to classify Chinese words and phrases according to their characteristics of word segmentation,mark them with different marks and process each group of words and phrases with a certain set of rules.
Keywordsambiguity,characteristics in word segmentation,word segmentation system.

　　根据《信息处理用现代汉语分词规范》，以及自然语言理解领域中的研究结果表明，现代汉语的篇章中二字词占70%^［1］以上。因而，在自然语言理解的基础工作——自动分词过程中，能有效地处理二字歧义组合结构就成了解决歧义组合结构的关键，本文就我们开发的“现代汉语自动分词实用系统”中采用的解决三字歧义链的方法作一概述。　　　　

12.gif (25855 bytes)
图1

　　任何事物的产生和发展都有一定的特点和规律，因而找出现代汉语真实语料中出现歧义的三字链，并对它们进行分析、分类，进而总结出产生三字歧义链的特点规律，就成为解决问题的关键。在此基础上再利用汉语自身的知识

2　分析结果及三字串特性分类

［1］

　　例如：“到了近代地理学”
“防护林体系建设工程之后”
“发电机三大主机集中控制”
“公司先进工作者”
　　(2)三字链中，只能把前两个字处理为词：

［2］

　　例如：前两字都为“干部”的三字链出现过12次，但都只能把“干部”切分为词：
　　　　“选派干部长期深入下去帮助基层工作”应为“干部/长期；
“这样的干部下基层俺们打心眼里喜欢”应为：干部/下；
“甘肃省领导干部分10路下去抓春耕”应为：干部/分等。
　　(3)三字链中只能把后两个字切分为词，这类三字链又可根据第一字的分词特性分为：
　　① 第一字与前面有的字组合为词(实为连续三字链)：

［3］

　　例如：“造成交通堵塞”存在：造成交、成交通；
“尽快形成规模”存在：形成规、成规模；
“限时完成规定的目标”存在：完成规、成规定。
　　② 第一字应单独切分为词：

［4］

　　例如：“把稳定物价与适当调价结构统一在可靠的基础上”应分为：“把/稳定”；
　　工人和班组长”应分为：班/组长；
“经济文化发展之不平衡”应分为：不/平衡；
“进一步调整租买比价”应分为：步/调整。
　　(4)三字链中可能前两字应为词，也可能后两字应为词。
　　在这类三字链中，又可根据第一字和第三字的特点分为二类：
　　① 只能第一字与前面的字成词或第三字与后面的字成词(同属连续三字链的情况)：

［5］

　　例如：以“产品”打头的三字歧义链共出现过110次，但都属于这类情况：
　　“他们生产品种达60余种”应分为：“生产/品种”；
“产品质量次的企业要停产整顿”应分为：“产品/质量”；
“1980年荣获全国景泰兰产品评比第一名”应分为：“产品/评比”；
“为省优质产品评审委员会反映了意见”应分为：产品/ 评审”。
　　② 非①的情况：

［6］

　　例如：以“工人”打头的三字链共出现50次，在不同的句子中具有不同的特性：
　　“但工人们放弃了休息”应为“工人/们”；
“钟点工人数大增”应为“工/人数”；
“命名24名工人为业余的作家”应为：“工人/为”。
　　(5)由于人名、地名等专用名词引起的三字链

［7］

　　“美国格伦威尔邮局……”；
“

3　三字歧义链切分方法

4　结　　语

　　上述是对二字词可能引起歧义切分的处理方法，同样可推广到多字词。通过对上述规则实用性验证(120万语料)，其对一般二字词的歧义切分正确率达到了99%以上^［2］，但不足之处是它不包含由于专用名词引起的歧义问题，由于专用名词(尤其是人名、地名)无法枚举，有限的词库规模无法满足这类问题的分词需要，它有待于自然语言理解各方面对这类问题的新的处理成果的应用。

参考文献

［1］　李国臣、刘开瑛、张永奎：汉语自动分词及歧义组合结构的处理，《中文信息学报》，1988，2(3)，87—89
［2］　亢临生、张永奎：基于标记的分词算法，《山西大学学报》，1994，(2)，283—286
［3］　亢临生、张永奎：利用分词属性解决歧义切分，《电脑开发与应用》，1994，7(4)，2—5

分享到：

Makefile学习教程: 跟我一起写 Makefile | 非圆齿轮传动

2007-04-15 14:32

浏览 1422

评论(0)

查看更多

评论

发表评论

 您还没有登录,请您登录后再发表评论

相关推荐

一种能够检测所有交叉歧义的汉语分词算法

一种能够检测所有交叉歧义的汉语分词算法

汉语文本自动分词算法

最牛的分词算法，可直接应用：分析了中文分词词典的机制...合，探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明，该算法具有较高的分词效率和准确率，对于消去歧义词也有较好的性能。

分词歧义消解示例程序

分词歧义消解示例程序,基于规则的分词歧义消解,基于统计的分词歧义消解的示例程序.

论文研究-面向专业领域的中文分词方法.pdf

在专业领域分词任务中，基于统计的分词方法的性能受限于缺少专业领域的标注语料，而基于词典的分词方法在处理新词和歧义词方面还有待提高。针对专业领域分词的特殊性，提出统计与词典相结合的分词方法，完善领域词典...

论文研究-基于粗分和词性标注的中文分词方法.pdf

中文分词是中文信息处理的重要内容之一。在基于最大匹配和歧义检测的粗分方法获取中文粗分结果集上，根据隐马尔可夫模型标注词性，通过...通过实验对比，证明基于粗分和词性标注的中文分词方法具有良好的分词效果。

中文自动分词哈工大-中文信息处理实验二实验报告

中文自动分词 1. 使用任意分词方法实现汉语自动分词；...4. 用实例说明所用分词方法分别对“交叉歧义”和“组合歧义”的处理能力； 5. 提交实验报告，给出详细实验过程和结果；提交源代码和可执行程序。

简单的中文自动分词程序

1. 解压缩后运行freqci.exe即可。 2. 本程序以Visual FoxPro 9.0编写，词表...3. 本程序的分词只用了最简单的词表匹配法，没做任何歧义字段消解和未登录词识别。 4. 本程序所用词表是从拼音加加的词表中整理出来的。

论文研究-二次回溯中文分词方法.pdf

在最大匹配法(MM)的基础上，提出了二次回溯中文分词方法。该方法首先对待切文本进行预处理，将文本分割成长度较短的细粒度文本；利用正向匹配、回溯匹配、尾词匹配、碎片检查来有效发现歧义字段；利用长词优先兼顾二...

Lucene的中文分词方法设计与实现

Lucene，实现了带有歧义消除功能的正向最大匹配算法．在系统评测方面，比较了该方法与现有方法的区别，对于如何构建一个高效的中文检索系统，提出了一种实现．关键词：中文分词；搜索引擎；Lucene；正向最大匹配

基于改进BP网络的中文歧义字段分词方法研究 (2007年)

文本挖掘中中文歧义字段的自动分词是计算机科学面临的一个难题。针对汉语书写时按句连写，词间无间隙，歧义字段分词困难的特点，对典型歧义中所蕴含的语法现象进行了归纳总结，建立了供词性编码使用的词性代码库。...

一种改进的中文分词歧义消除算法研究

中文分词是自然语言处理的前提和基础，利用分类效果较好的交叉覆盖算法实现中文分词。

中文文本自动分词和标注

本书介绍了信息处理用现代汉语分词词表的收词原则和方法，《信息处理用现代汉语分词规范》设计原则及规范内容，中文文本歧义切分技术等内容。

论文研究-综合最大匹配和歧义检测的中文分词粗分方法.pdf

针对目前中文分词中存在的准确率低和粗分结果集大的问题，在最大匹配算法基础上，采用文本切分时的组合歧义检测和交叉歧义检测以及全切分算法，提高了文本粗分的准确率，并减小了粗分结果集的规模，为进一步正确分词...

使用IK Analyzer实现中文分词之Java实现

IK Analyzer 是一个开源的，基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版... 在 2012 版本中，IK 实现了简单的分词歧义排除算法，标志着 IK 分词器从单纯的词典分词向模拟语义分词衍化。

基于Lucene的中文分词方法设计与实现

本文设计实现了一个中文分词模块,其主要研究目的在于寻找更为有效的中文词汇处理方法,提高全文检索系统的中文处理能力. 整个模块基于当前最流行的搜索引擎架构 Lucene ,实现了带有歧义消除功能的正向最大匹配算法. ...

PHP中文分词代码 v1.0 UTF-8.rar

分词系统是基于字符串匹配的分词方法，这种方法又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。...

中英文分词组件--CSharp分词

2. 多元歧义自动识别。对于前后歧义有较好的识别效果。如: 长春市长春节致词 -- 长春/市长/春节/致词/ 长春市长春药店 -- 长春市/长春/药店 3. 常用及敏感词过滤功能。通过一个简单的属性设置就可以完成针对...

论文研究-基于改进最大匹配算法的中文分词粗分方法.pdf

通过引入广义词条和诱导词集，在最大匹配算法基础上提出一种中文分词的粗分方法，以最长广义词匹配为原则进行中文分词，利用诱导词集实现交叉型歧义识别。在保证快速准确切分无歧义汉语语句的同时，100%检测并标记有...

结巴分词jar包

全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。支持繁体分词支持自定义词典 MIT ...

盘古分词工具

主要功能: 中英文分词，未登录词识别,多元歧义自动识别,全角字符识别能力主要性能指标: 分词准确度:90%以上处理速度: 300-600KBytes/s Core Duo 1.8GHz 用于测试的句子: 长春市长春节致词长春市长春药店 IＢM的...

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

三字歧义链自动分词方法

评论

发表评论

相关推荐

最近访客更多访客>>