会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

机械分词方法

发布时间: 2022-12-12 09:21:54   作者:etogether.net   来源: 网络   浏览次数:


此外,还有一种称为“岛驱动”的扫描方式,优先在语料中切分一些词,以这些词为断点将语料断开,再对各分段进行切分。


机械分词方法设计简单,易于实现。但是由于分词是一个智能过程,仅用机械方法分词,不可避免地存在着严重的缺陷,无法解决分词阶段的两大问题:歧义切分问题和未登录词识别问题,影响了分词的准确率。统计结果表明,单纯使用正向最大匹配,其错误率为1/169,而逆向最大匹配的错误率也达到了1/245【2.!】,还远不能满足实际需要。实用的分词系统,只能把机械分词作为一种初分手段,然后再通过各种知识,包括分词规则、统计知识,以及句法、语义和上下文信息,来处理初步分词的结果,以进一步提高分词的准确率。


第二、机械分词方法的局限性

1. 歧义切分问题

歧义切分字段指的是同样的一串汉字,按照不同的方法,可以切分成不同的结果。具体地,又可以进一步分为交集歧义字段和多义组合歧义字段。统计结果表明,在汉语文本中,歧义现象的出现概率约为1/110,其中约有90%是交集型歧义字段,剩下的10%是多义组合歧义字段。


所谓交集歧义字段,是指字段AJB,它既可切分为AJ/B,又可切分为A/JB,其中J称为交集字串。例如,字串“需求和规格说明”,按正向匹配,切分为“需求和规格说明”;而按逆向匹配;则切分为“需求和规格说明”。“需求和”即为交集歧义字段,“求”为交集字串。这类例子还有:“不安定因素”,“一只白天鹅”。


正向匹配:“不  安定  因素”“一  只  白天  鹅”。

逆向匹配:“不安  定  因素”“一  只  白  天鹅”。

歧义字段:“不安定”“白天鹅”。


所谓多义组合歧义字段,是指字段AB,其中不仅AB成词,A、B还可分别独立成词。例如,字串“他将来上海”中的“将来”即为多义组合歧义字段。而各种机械匹配方法都将错误地切分为“他  将来  上海”。常见的多义组合字段还有“四周”,“马上”等。


“四周一片寂静”,“四周前他去北京了”。

“他马上就走”,“他从马上下来”。


歧义切分的情况是相当复杂的,最简单的歧义字段仅牵涉到两个词,复杂的能牵涉到多个词,例如字串“结合成分子时”就牵涉到多个双字词和单字词,即有交集歧义字段,又有多义组合歧义字段,给歧义处理造成了很大的困难。


2. 未登录词识别问题

汉语有几百万个词,一部词典不可能也没有必要将所有的词汇全部放入。一般认为,理想的词典大小应该为五万到十万词,这样就产生了未登录词识别的问题。具体地,未登录词识别又可分为几种情况,包括归并时间词和数词,根据构词法处理叠宇、叠词等构词现象,识别人名、地名和领域专有词汇。这些问题都不能通过简单的机械匹配方法解决,而必须结合知识和统计的方法加以处理。


责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:切分歧义处理知识
  • 下一篇:自动分词的原则


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)