至于完全在分词阶段消除歧义的系统,一般都建立分词知识库,根据分词规则来处理歧义现象,这些规则分为通用规则和专用规则。通用规则是从大量的歧义现象之中归纳出来的,适用于同类的所有歧义字段。例如,从大量的语言现象中可以总结出规则:单字方位词一般不组词。歧义句“他伏下身子”,按照正向匹配方法,将切分为“他 伏 下 身 子”:而按照逆向匹配方法,将切分为“他伏下身子”。根据规则,系统选择逆向匹配结果作为分词结果。又比如,大多数由量词和名词组成的多义组合字段,如果前面的词为数词或代词,应该予以切分,在其他情况下,则不予切分。根据这条规则,歧义句“来了三个人”将切分为“来 了 三 个 人”,而“个人力量是渺小的”将切分为“个人力量 是 渺小 的”。
专用规则针对某一特定的歧义字段,根据词法、句法和上下文信息,决定它的切分方式。例如,为了处理多义组合字段“将来”,特别制定规则:如果“将来”的前驱词是人名或人称代词,则切分为两个词,否则切分成一个词。这条规则能够正确地把歧义句“他将来上海找工作”切分为“他 将 来 上海 找 工作”。类似地,针对多义组合字段“了解”,制定规则:如果“了解”后继名词的义项中有“数学式子”或“扣子”,则切分为两个词,否则切分成一个词。这条规则能够正确地把歧义句“他学会了解方程”切分为“他 学 会 了 解 方程”。
我们认为分词规则的制定确实能提高分词系统的准确率,但是分词系统所使用的规则必须是从大量的语言现象中总结出来的。这些语言现象必须来自真实的文本,而不是凭空想象出来的,否则,在一个与设计考虑完全不同的环境下,按照规则就可能作出错误的切分。现在国内常见的语料库的容量还比较有限,多数歧义字段出现的频率也不高,在几百万词的语料库中,出现的歧义字段大约有几万个,而特定的歧义字段出现频数最多只有几十个,这就给规则的制定造成了很大的困难。通用规则的制定是针对所有歧义现象的,可信度比较高,而专用规则一般只是从个别现象中提取出来的,在环境改变的情况下,就很可能引起切分错误。例如,歧义句“他将来想找什么工作”,以及“解方程前,必须先了解方程的实质”按上述两条规则都将得出错误的切分结果。
责任编辑:admin