会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

机械分词方法

发布时间: 2022-12-12 09:21:54   作者:etogether.net   来源: 网络   浏览次数:
摘要: 最大匹配优先切分长度较长的词,最小匹配优先切分长度较短的词,这几种方法相互结合,就构成了以下几种常见的机械分词方法。


机械分词方法指的是主要依据词典信息,而不使用规则知识和统计信息,按一定的策略将汉字串与词典中的词逐一匹配;如果匹配成功,一就加以切分。按照扫描方向的不同,机械分词方法可以分为正向匹配和逆向匹配;按照不同长度词的优先情况,可以分为最大匹配和最小匹配。最大匹配优先切分长度较长的词,最小匹配优先切分长度较短的词。这几种方法相互结合,就构成了以下几种常见的机械分词方法。


第一、机械分词方法简介

1. 正向最大匹配

用MAXL表示最大词长,按照从左到右的顺序,首先从汉字串中取长度为MAXL的子串查词典。若词典中存在这个词,则切分出这一子串,指针后移MAXL个汉字后继续切分,否则,子串长度减一,再与词典匹配。若长度为2的子串还不能在词典中查到,则取当前汉字为词,指针后移一个汉字继续匹配。


2. 正向最小匹配

和正向最大匹配一样,按照从左到右的顺序,首先从汉字串中取长度为2的子串查词典。若词典中存在这个词,则切分出该子串,指针后移2个汉字,否则,子串长度逐次加一继续匹配。若一直到长度为MAXL的子串仍无法匹配,则切分出当前汉字。


现在用两种正向匹配方法切分句子“后天我们去北京”,设最大词长为4,两种方法的匹配词序依次是:


正向最大匹配:后天我们  后天我  后天  我们去北  我们去  我们  去北京  去北  去  北京。

正向最小匹配:后天  我们  去北  去北京  去  北京。


两种方法最后都得到正确的切分结果:后天 我们去北京。


3. 逆向匹配

逆向匹配同样也分为逆向最大匹配和逆向最小匹配。和正向匹配不同的是,切分汉字串时,不是按汉字顺序从左到右抽取子串,而是从汉字串尾端开始抽取。以上句为例,两种逆向匹配方法的匹配词序依次是:


逆向最大匹配:们去北京  去北京  北京  天我们去  我们去  们去  去  后天我们  天我们  我们  后天。

逆向最小匹配:北京  们去 我们去 天我们去  去 我们  后天。


最后也都得到了正确的切分结果。

一般说来,逆向匹配的切分精度略高于正向匹配,产生的歧义现象也较少。例如,对于句子“研究生命起源”,用正向最大匹配和正向最小匹配方法切分,分别得到“研究生命  起源”和“研究  生命起源”,其中前一种切分结果是错误的。而两种逆向匹配方法都能得到正确的切分结果“研究  生命  起源”。



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
  • 上一篇:切分歧义处理知识
  • 下一篇:自动分词的原则


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)