返回

机翻技术

搜索 导航
超值满减
语言特征体系与扩充语法
2023-04-13 09:22:54    etogether.net    网络    


在自然语言中,词语和短语之间通常存在一致性方面的限制。例如,名词短语“a men”不正确,因为冠词“a”表示单个对象,而名词“men”表示复数形式的对象,这不符合英语中数的一致性约束。除此以外,英语中还存在很多其他形式的一致性约束,其中包括主谓一致性、代词词性的一致性、短语中心语与补语的一致性,等等。为了方便地对其加以处理,我们需要进一步扩展语法的形式化表示,使得语法成分都可以具备对应的特征。例如,可以定义特征NUMBER,NUMBER取值为s(单数)或者p(复数),因此可以编写出扩充CFG规则,例如:


NP→ART N只有当NUMBER1和NUMBER2一致时,规则才成立


这条规则说的是一个冠词和紧跟其后的名词可以组成一个合法的名词短语,但只有当第一个词语的数特征和第二个词一致时,该规则方可成立。实际上,这条规则等同于两条CFG规则,这两条规则需要采用两种不同的终结符号来表示所有名词短语的单数形式和复数形式,如下所示:


NP-SING → ART-SING N-SING

NP-PLURAL → ART-PLURAL N-PLURAL


从易用性方面来说,该例中用到的这两种方法看上去好像类似,但实际上并非如此。现在,让我们看看语法中所有右部都用NP规则的情况。它们都必须复制成两条,其中一条针对NP-SING,另一条针对NP-PLURAL。因此,这部分语法规则的规模就增加了一倍。而且,如果还要处理一些其他的特征,比如人称一致性,会使得语法规模不断倍增。但是,如果采用特征描述,则扩充语法的规模与原语法一样,同时又考虑了一致性约束。


为了达到这个目的,我们将语法成分定义为一个特征结构——将成分的相关属性定义为从特征到具体值的映射。例如,成分ART1代表a的一个特定用法,其特征结构可以写为:


ART1: (CAT ART

          ROOT a

          NUMBER s)


这就是说,它是一个属于词类ART的成分,词根为“a”,表示的是单数。通常,我们会使用缩写形式,使CAT的值更加突出,而且能和简单的上下文无关文法建立一个直观的联系。成分ART1用缩写形式,可写为:


ART1: (ART ROOT a NUMBER s)


特征结构可以用来表示更大的成分。为了做到这一点,特征结构本身也可以作为特征值出现。特殊的特征用1,2,3等整数来表示,它们分别代表第一个子成分,第二个子成分,可以根据需要继续类推。这样,NP成分“afish”就可以表示为:


NP1: (NP NUMBER s

               1(ART ROOT a

                         NUMBER s)

               2 (N ROOT fish

                      NUMBER s))




[1] [2] [下一页] 【欢迎大家踊跃评论】

上一篇:词语形态分析和词典
下一篇:有限状态模型与词语形态处理

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们