返回

机翻技术

搜索 导航
超值满减
机械分词方法
2022-12-12 09:21:54    etogether.net    网络    


机械分词方法指的是主要依据词典信息,而不使用规则知识和统计信息,按一定的策略将汉字串与词典中的词逐一匹配;如果匹配成功,一就加以切分。按照扫描方向的不同,机械分词方法可以分为正向匹配和逆向匹配;按照不同长度词的优先情况,可以分为最大匹配和最小匹配。最大匹配优先切分长度较长的词,最小匹配优先切分长度较短的词。这几种方法相互结合,就构成了以下几种常见的机械分词方法。


第一、机械分词方法简介

1. 正向最大匹配

用MAXL表示最大词长,按照从左到右的顺序,首先从汉字串中取长度为MAXL的子串查词典。若词典中存在这个词,则切分出这一子串,指针后移MAXL个汉字后继续切分,否则,子串长度减一,再与词典匹配。若长度为2的子串还不能在词典中查到,则取当前汉字为词,指针后移一个汉字继续匹配。


2. 正向最小匹配

和正向最大匹配一样,按照从左到右的顺序,首先从汉字串中取长度为2的子串查词典。若词典中存在这个词,则切分出该子串,指针后移2个汉字,否则,子串长度逐次加一继续匹配。若一直到长度为MAXL的子串仍无法匹配,则切分出当前汉字。


现在用两种正向匹配方法切分句子“后天我们去北京”,设最大词长为4,两种方法的匹配词序依次是:


正向最大匹配:后天我们  后天我  后天  我们去北  我们去  我们  去北京  去北  去  北京。

正向最小匹配:后天  我们  去北  去北京  去  北京。


两种方法最后都得到正确的切分结果:后天 我们去北京。


3. 逆向匹配

逆向匹配同样也分为逆向最大匹配和逆向最小匹配。和正向匹配不同的是,切分汉字串时,不是按汉字顺序从左到右抽取子串,而是从汉字串尾端开始抽取。以上句为例,两种逆向匹配方法的匹配词序依次是:


逆向最大匹配:们去北京  去北京  北京  天我们去  我们去  们去  去  后天我们  天我们  我们  后天。

逆向最小匹配:北京  们去 我们去 天我们去  去 我们  后天。


最后也都得到了正确的切分结果。

一般说来,逆向匹配的切分精度略高于正向匹配,产生的歧义现象也较少。例如,对于句子“研究生命起源”,用正向最大匹配和正向最小匹配方法切分,分别得到“研究生命  起源”和“研究  生命起源”,其中前一种切分结果是错误的。而两种逆向匹配方法都能得到正确的切分结果“研究  生命  起源”。




[1] [2] [下一页] 【欢迎大家踊跃评论】

上一篇:切分歧义处理知识
下一篇:自动分词的原则

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们