- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
由于概率上下文无关语法是上下文无关语法的自然扩充,这样的语法在概率估计方面会出现一些问题。正因为这些问题,所以当前大多数概率剖析模型都使用某些增强了的PCFG,而不使用普通的PCFG。在此,总结PCFG在模拟结构依存(structural dependency)和模拟词汇依存(lexical dependency)中的问题。
PCFG的一个问题来自基本的独立性假设(independence assumption)。根据定义,CFG假定任何一个非终极符号的展开与任何其他非终极符号的展开是独立的。这种独立性假设也带到了PCFG中;每个PCFG规则被假定为独立于其他每个规则,这样,规则的概率才能相乘。然而,英语句法统计检查的结果说明,有时一个结点展开的选择取决于该结点发在剖析树中的位置。例如,我们来研究代词与实词名词短语在句子中的不同位置的分布情况。从Kuno(1972)开始,很多语言学家指出,在英语中(在很多其他语言中也是如此)存在着一个强烈的倾向:一个句子的句法主语往往是代词(Givon,1990)。代词是谈论旧信息的一种手段,而非代词(实词性)的名词或名词短语往往用
来引入新信息。例如,Francis等人指出,在Switchboard语料库的31021个陈述句的主语中,91%都是代词,参见例句(12.15a),只有9%是实词性的名词或名词短语,参见例句(12.15b)。反之,在7489个宾语中,只有34%是代词,参见例句(12.16a),而66%是实词性的名词或名词短语,参见例句(12.16b)。
(a) She's able to take her baby to work with her. (12.15)
(b) Uh, my wife worked until we had a family.
(a) Some laws absolutely prohibit it. (12.16)
(b) All the people signed confessions.
通过规则NP→Pronoun,我们可以把NP展开为代词,通过规则NP→Det Noun,我们可以把NP展开为实词性名词或名词短语。如果NP展开为代词对应于NP展开为实词性名词或名词短语的概率取决于NP究竟是主语还是宾语,那么,我们就可以捕捉到这样的依存关系,然而这种概率依存关系恰恰是PCFG所不允许的。
PCFG更重要的问题是这种语法缺乏对单词的敏感性。PCFG中的词汇信息只能通过前终极结点(Verb, Noun, Det)展开为单词的概率来表示。但是,还有一些其他词汇依存关系对于句法概率的模拟也很重要。例如,一些研究者指出,在选择有歧义的介词短语附着的正确剖析时,词汇信息就起着重要作用(Ford et al.,1982; Whittemore et al.,1990; Hindle and Rooth,1991;et al.)。我们来 研究来自Hindle and Rooth(1991)的例子:
Moscow sent more than 100, 000 soldiers into Afghanistan .…. (12.17)