返回

机翻技术

搜索 导航
超值满减
自然语言有限状态剖析方法
2022-07-24 09:40:30    etogether.net    网络    


有些自然语言处理的任务并不需要进行完全的剖析。对于这些任务,对输入句子的局部剖析(partial parse)或浅层剖析(shallow parse)已经足够了。例如,信息抽取(information extraction)算法一般不必抽取在文本中所有可能的信息,只要抽取那些可以填充所要求数据的某种模板就足够了。很多局部剖析系统都使用层叠式(cascade)的有限状态自动机来替代上下文无关语法。依靠这样简单的有限状态自动机而不依靠完全的剖析,使得这些系统的效率非常高。因为有限状态系统不能模拟某些递归规则,它们只好以效率来弥补覆盖面的不足。但这里只说明怎样使用有限状态自动机来识别基本短语(basic phrase),如名词短语、动词短语和地点词等。下面是FASTUS基本短语识别器的输出,当然,究竟处理什么样的基本短语依赖于具体的应用要求。


1.png


这些基本短语是通过编写到转录机中的一些有限状态规则产生出来的。为了具体说明其工作的情况,我们从Appelt and Israel(1997)的FASTUS规则中抽出一个简化的集合,用这些简化的规则来探测名词组(noun group)。名词组是名词短语的核心;一个名词组包含中心名词和左修饰语(限定词、形容词、数量修饰语、数词等)。为了表达上的方便,我们使用带有箭头符号(→)的规则,这样的规则看起来很像上下文无关规则的形式,但在实际情况下,这些规则被编为有限自动机,并没有像上下文无关规则那样来处理。


一个名词组可以只包括一个代词(she, him或 them),一个时间短语(yesterday)或一个日期:


NG → Pronoun | Time-NP | Date-NP


名词组也可以只包含一个单独使用的限定词(this或that),或者包含一个中心名词(HdNns),这个中心名词前面可以有随选的限定词短语(DETP)和/或随选的形容词(Adjs)(the quick and dirty solution, the frustrating mathematics problem),或者包含一个由动名词短语修饰的中心名词(the rising index ):


NG → (DETP) (Adjs) Hd Nns | DETP Ving HdNns

                                           | DETP-CP (and HdNns)


上面的括号用来表示随选的成分,同时括号也可以用来表示组合。限定词短语有两个变体:


DETP → DETP-CP | DETP-INCP


完全限定词短语(DETP-CP)能够单独作为NP使用,诸如only five, another three, this, many, hers, all 和the most。Adv-pre-num是那些在限定词短语中可以出现在数词之前的副词(almost 5, precisely5 )。Pro-Poss-cp是可以单独像一个完全的NP那样使用的主有代词(mine或his)。数量修饰语(Quantifiers, 简写为Q)包括many, few和much等。


DETP-CP → ({Adv-pre-num|“another"|

                    { Det | Pro-Poss } ({Adv-pre-num |  only  (“other)})}) Number

                    |Q|Q-er|(the") Q-est| another| Det-cp| DetQ|Pro-Poss-cp




[1] [2] [3] [下一页] 【欢迎大家踊跃评论】

上一篇:次范畴化的概念及应用
下一篇:FSA剖析就是搜索

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们