- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
机械分词方法指的是主要依据词典信息,而不使用规则知识和统计信息,按一定的策略将汉字串与词典中的词逐一匹配;如果匹配成功,一就加以切分。按照扫描方向的不同,机械分词方法可以分为正向匹配和逆向匹配;按照不同长度词的优先情况,可以分为最大匹配和最小匹配。最大匹配优先切分长度较长的词,最小匹配优先切分长度较短的词。这几种方法相互结合,就构成了以下几种常见的机械分词方法。
第一、机械分词方法简介
1. 正向最大匹配
用MAXL表示最大词长,按照从左到右的顺序,首先从汉字串中取长度为MAXL的子串查词典。若词典中存在这个词,则切分出这一子串,指针后移MAXL个汉字后继续切分,否则,子串长度减一,再与词典匹配。若长度为2的子串还不能在词典中查到,则取当前汉字为词,指针后移一个汉字继续匹配。
2. 正向最小匹配
和正向最大匹配一样,按照从左到右的顺序,首先从汉字串中取长度为2的子串查词典。若词典中存在这个词,则切分出该子串,指针后移2个汉字,否则,子串长度逐次加一继续匹配。若一直到长度为MAXL的子串仍无法匹配,则切分出当前汉字。
现在用两种正向匹配方法切分句子“后天我们去北京”,设最大词长为4,两种方法的匹配词序依次是:
正向最大匹配:后天我们 后天我 后天 我们去北 我们去 我们 去北京 去北 去 北京。
正向最小匹配:后天 我们 去北 去北京 去 北京。
两种方法最后都得到正确的切分结果:后天 我们去北京。
3. 逆向匹配
逆向匹配同样也分为逆向最大匹配和逆向最小匹配。和正向匹配不同的是,切分汉字串时,不是按汉字顺序从左到右抽取子串,而是从汉字串尾端开始抽取。以上句为例,两种逆向匹配方法的匹配词序依次是:
逆向最大匹配:们去北京 去北京 北京 天我们去 我们去 们去 去 后天我们 天我们 我们 后天。
逆向最小匹配:北京 们去 我们去 天我们去 去 我们 后天。
最后也都得到了正确的切分结果。
一般说来,逆向匹配的切分精度略高于正向匹配,产生的歧义现象也较少。例如,对于句子“研究生命起源”,用正向最大匹配和正向最小匹配方法切分,分别得到“研究生命 起源”和“研究 生命起源”,其中前一种切分结果是错误的。而两种逆向匹配方法都能得到正确的切分结果“研究 生命 起源”。