会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

有限状态模型与词语形态处理

发布时间: 2023-04-11 09:22:58   作者:etogether.net   来源: 网络   浏览次数:
摘要: 实际的系统中不仅存在大量的词汇,而且每个词都可能结合各种形式的词缀,形成另外的相关词语,解决这个问题的一种方法是对输入...


在简单的例子和小型的系统中,我们可以列出所有的词语。但是,大词汇量的系统在词典表示方面存在一个很严重的问题。实际的系统中不仅存在大量的词汇,而且每个词都可能结合各种形式的词缀,形成另外的相关词语。解决这个问题的一种方法是对输入句子进行预处理,生成一个词素序列。词语可能仅由单个词素组成,但通常是由词根加上词缀形成的。例如,“eaten”就由词根“eat”和表示过去分词的后缀“en”组成。如果不经过预处理,则词典必须列出“eat”的所有形式,其中包括“eats”,“eating”,“ate”和“eaten”。如果存在预处理过程,词典中仅需要存储词素“eat”,它可以与后缀“ing”,“s”和“en”结合。另外,可能还需要增加一个词条来存储其不规则形式“ate”。因此,词典存储的不是四个而是两个词条(“eat”和“ate”)。类似地,“happiest”这个词可以分解为词根“happy”和后缀“est”。这样,词典就不需要另外增加一个独立的词条。当然,并不是所有形式都是可以接受的。例如,“seed”就不能分解为词根“se”(或“see”)和后缀“ed”。对于每个词根来说,词典只需要记录它究竟可以接受什么样的形式。


基于有限状态转录机(FST,finite state transducer)的方法就是一个广为人们所接受的词典表示模型。有限状态转录机和有限状态自动机相似,不同的是转录机对于给定的输入可以产生一个输出。有限状态转录机中的边均采用一对符号来标记。例如,当输入为i时,标为i:y的边可以通过,而且输出y。有限状态转录机可以简明地表示词典,并且可以将词的各种表面形式转换成词素序列。图1 给出了一个定义happy及其派生形式的简单FST,该转录机可以将“happier”转换为序列“happy+er”;同时,还能将“happiest”转换为序列“happy+est”。


图1.png

图1 表示happy各种形式的简单有限状态转录机


标记为单个字母的边,其输入和输出都为该字母。标记为双圈的节点表示的是成功状态,即可以接受的词语。从状态1开始,我们来看看输入词语“happier”是如何处理的。上边的网络接受前面四个字符“happ”,并将输入复制为输出结果。从第5个字符开始,可以接收“y”生成一个完整的词语,或者跳到状态6准备考虑词缀。(这个虚线连接表示跳跃,通常来说并不必要,但是这样处理有利于表明词根分析与词缀分析之间的间断与转换。)在这里,对于输入词“happier”,必须跳到状态6,下一个字符必须是“i”,该字符被转换为y。接下来的输入为空(空符号ε)而输出为加号。从状态8开始,输入必须为“e”,而输出也是“e”。紧接着的是“r”,分析器转移到状态10,该状态用双圈表示,意味着可能到达了词尾(即FST的成功状态)。因此,FST接受相应的形式,输出了我们需要的词素序列。


整个词典都可以按照这种方式加工成FST,FST能表示所有合法的输入词语,并且可以将它们转换为相应的词素序列。有限状态转录机的不同后缀只须定义一次,所有可接受同一后缀的词根最后可以指向同一节点。前缀相同的词(如“torch”,“toss”和“to”)也可以共用一个节点。这样处理之后,网络的规模就大大缩减了。图2所示的FST可以接受如下以t开头的词:“tie”(状态4),“ties”(10),“trap”(7),“traps”(10),“try”(11),“tries”(15),“to”(16),“torch”(19),“torches”(15),“toss”(21),“tosses”(15)。此外,该转录机还可以输出对应的词素序列。


图2.png

图2 一些名词(单数和复数)定义的FST片段


需要注意的是,在词的处理过程中可能会通过某些可接受的成功状态。例如,输入词为“toss”时,就会通过状态16,该状态表明“to”是个可接受的合法词语。然而,这个分析是无效的。原因是,如果“to”作为一个词被接受,那么就无法再考虑剩下的字母“ss”了。


采用这样的一个FST,输入的句子就能够分析为一个词素序列。词语在极少数情况下存在歧义,它可以分解成多种不同的词素。然而,这种情况相当少。


责任编辑:admin


微信公众号

我来说两句
评论列表
已有 0 条评论(查看更多评论)