会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

上下文有关的错拼更正算法

发布时间: 2022-07-14 09:20:06   作者:etogether.net   来源: 网络   浏览次数:
摘要: 用符合英语构词法的有限状态自动机来生成,如果不能生成就是错拼单词,如果符合正词法规则的概率很低,就是错拼单词。



检查拼写错误的方法有不少,这些方法是:查找该单词是否在词典中存在,如果不存在就是错拼单词;用符合英语构词法的有限状态自动机来生成,如果不能生成就是错拼单词;如果符合正词法规则的概率很低,就是错拼单词。但是,这些方法对于检查和更正真词错拼(real-word spelling error)或真词错误更正(real-word error detection)都是不充分的。因为真词错拼之类的错误单词都是在真实的英语单词中实际存在的单词。真词错拼的发生,是由于在排版印刷时出现错误操作(插入错误、脱落错误或换位错误),使得偶然排印出一个英语中存在的真词(例

如,把there打成three),或者由于写作的人用同音词或准同音词来错误地进行替换(例如,用dessert 来替换desert,用piece来替换peace)。对于这种类型错误的更正称为上下文有关的错拼更正(context-sensitive spelling error correction )。


这种类型的错误的重要性如何呢?Peterson(1986)根据对于单个排版印刷错误(插入、脱落、替代、换位)的初步分析,估计由于这些排版印刷错误而产生的英语真词量(对于一个相当大的350000个单词的词表)大约为15%。Kukich(1992)根据对于语料库的实验研究,总结出不同的分析结果,认为英语真词错误的比例在25%~40%。图1是Kukich(1992)给出的一些例子。他把这种错误分为局部性错误(local error)和全局性错误(global error)两种。局部性错误是根据直接围绕该词的上下文就可以检查出的错误,全局性错误是需要根据更广泛的上下文才能检查出的错误。


1.png


图1 Kukich(1992)发现的一些真词拼写错误,分为局部性错误和全局性错误两种


上下文有关的拼写错误检查的方法之一是基于N元语法的方法。


用于拼写检查与更正的基于单词的N元语法方法是Mays et al.(1991)提出的。这种方法的基本思想是,对于句子中的每个单词生成它的一切可能的错误拼写,或者只包括排版印刷错误而造成的错误拼写(字母的插入、删除或替换),或者也包括同音词造成的错误拼写(可能包括正确拼写),然后选出使该句子具有最高先验概率的拼写。这就是说,给定一个句子W={W1,W2,…,Wk…,Wn},其中Wk的不同拼写是Wk',Wk”,等等。在这些可能的拼写中,我们使用N元语法计算P(W),从中选择最大的P(W)。也可以使用基于词类的N元语法来代替基于单词的N元语法,发现不可靠的词类组合,但这种方法可能不如发现不可靠的单词组合的效果好。


上下文有关的错拼更正还有其他的统计方法,有些方法是专为更正而提出的,有些方法则是针对更为一般的词汇歧义消解而提出的(例如,词义的歧义消解或重音复原)。除了我们刚才描写的三元语法方法之外,还包括贝叶斯分类法,或者贝叶斯分类与三元语法相结合的方法(Gale et al.,1993;Golding,1997;Golding and Schabes,1996)、判定表方法(Yarowsky,1994)、基于转换的学习方法(Mangu and Brill,1997)、潜在语义分析法(Jones and Martin,1997)、筛选法[Winnow](Golding andRose,1999)。把这些方法进行对比,Golding and Roth(1999)发现,筛选算法效果最好。总的来说,这些算法在很多方面是相似的,它们的根据都是单词和词类的N元语法这样的特征,Roth(1998,1999)指出,其中很多算法使用一族线性预测算子来进行预测,称为线性统计询问(Linear Statistical Queries,简称LSQ)假设。



责任编辑:admin



微信公众号

我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)