返回

行业文章

搜索 导航
超值满减
分词规则简单介绍
2022-12-16 09:23:39    etogether.net    网络    


至于完全在分词阶段消除歧义的系统,一般都建立分词知识库,根据分词规则来处理歧义现象,这些规则分为通用规则和专用规则。通用规则是从大量的歧义现象之中归纳出来的,适用于同类的所有歧义字段。例如,从大量的语言现象中可以总结出规则:单字方位词一般不组词。歧义句“他伏下身子”,按照正向匹配方法,将切分为“他  伏  下  身  子”:而按照逆向匹配方法,将切分为“他伏下身子”。根据规则,系统选择逆向匹配结果作为分词结果。又比如,大多数由量词和名词组成的多义组合字段,如果前面的词为数词或代词,应该予以切分,在其他情况下,则不予切分。根据这条规则,歧义句“来了三个人”将切分为“来  了  三  个  人”,而“个人力量是渺小的”将切分为“个人力量  是  渺小  的”。


专用规则针对某一特定的歧义字段,根据词法、句法和上下文信息,决定它的切分方式。例如,为了处理多义组合字段“将来”,特别制定规则:如果“将来”的前驱词是人名或人称代词,则切分为两个词,否则切分成一个词。这条规则能够正确地把歧义句“他将来上海找工作”切分为“他  将  来  上海  找  工作”。类似地,针对多义组合字段“了解”,制定规则:如果“了解”后继名词的义项中有“数学式子”或“扣子”,则切分为两个词,否则切分成一个词。这条规则能够正确地把歧义句“他学会了解方程”切分为“他  学  会  了  解  方程”。


我们认为分词规则的制定确实能提高分词系统的准确率,但是分词系统所使用的规则必须是从大量的语言现象中总结出来的。这些语言现象必须来自真实的文本,而不是凭空想象出来的,否则,在一个与设计考虑完全不同的环境下,按照规则就可能作出错误的切分。现在国内常见的语料库的容量还比较有限,多数歧义字段出现的频率也不高,在几百万词的语料库中,出现的歧义字段大约有几万个,而特定的歧义字段出现频数最多只有几十个,这就给规则的制定造成了很大的困难。通用规则的制定是针对所有歧义现象的,可信度比较高,而专用规则一般只是从个别现象中提取出来的,在环境改变的情况下,就很可能引起切分错误。例如,歧义句“他将来想找什么工作”,以及“解方程前,必须先了解方程的实质”按上述两条规则都将得出错误的切分结果。


责任编辑:admin



上一篇:本地化排版校对及质量保证
下一篇:语言质量检验结果及对策

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关行业文章






PC版首页 -关于我们 -联系我们