行业文章

搜索导航

分词规则简单介绍

2022-12-16 09:23:39 etogether.net 网络次

至于完全在分词阶段消除歧义的系统，一般都建立分词知识库，根据分词规则来处理歧义现象，这些规则分为通用规则和专用规则。通用规则是从大量的歧义现象之中归纳出来的，适用于同类的所有歧义字段。例如，从大量的语言现象中可以总结出规则：单字方位词一般不组词。歧义句“他伏下身子”，按照正向匹配方法，将切分为“他伏下身子”：而按照逆向匹配方法，将切分为“他伏下身子”。根据规则，系统选择逆向匹配结果作为分词结果。又比如，大多数由量词和名词组成的多义组合字段，如果前面的词为数词或代词，应该予以切分，在其他情况下，则不予切分。根据这条规则，歧义句“来了三个人”将切分为“来了三个人”，而“个人力量是渺小的”将切分为“个人力量是渺小的”。

专用规则针对某一特定的歧义字段，根据词法、句法和上下文信息，决定它的切分方式。例如，为了处理多义组合字段“将来”，特别制定规则：如果“将来”的前驱词是人名或人称代词，则切分为两个词，否则切分成一个词。这条规则能够正确地把歧义句“他将来上海找工作”切分为“他将来上海找工作”。类似地，针对多义组合字段“了解”，制定规则：如果“了解”后继名词的义项中有“数学式子”或“扣子”，则切分为两个词，否则切分成一个词。这条规则能够正确地把歧义句“他学会了解方程”切分为“他学会了解方程”。

我们认为分词规则的制定确实能提高分词系统的准确率，但是分词系统所使用的规则必须是从大量的语言现象中总结出来的。这些语言现象必须来自真实的文本，而不是凭空想象出来的，否则，在一个与设计考虑完全不同的环境下，按照规则就可能作出错误的切分。现在国内常见的语料库的容量还比较有限，多数歧义字段出现的频率也不高，在几百万词的语料库中，出现的歧义字段大约有几万个，而特定的歧义字段出现频数最多只有几十个，这就给规则的制定造成了很大的困难。通用规则的制定是针对所有歧义现象的，可信度比较高，而专用规则一般只是从个别现象中提取出来的，在环境改变的情况下，就很可能引起切分错误。例如，歧义句“他将来想找什么工作”，以及“解方程前，必须先了解方程的实质”按上述两条规则都将得出错误的切分结果。

责任编辑：admin

上一篇：本地化排版校对及质量保证
下一篇：语言质量检验结果及对策

微信公众号搜索“译员”关注我们，每天为您推送翻译理论和技巧，外语学习及翻译招聘信息。

行业文章

相关行业文章