专有名词短语—既包括简单的名称,如“John”,也包括更复杂的名称,如“New York Times”。如果输入的时候遵循标准的大小写约定,则即使名称不在词典中,仅仅根据大写,我们也能将它们分析出来。因此,专有名词短语的识别就特别容易了。
其他结构看起来好像也能可靠地识别出来,比如介词短语,以及由必需的次范畴成分组成的动词短语。可以生成这样的短语,但是,它们可能并不是句子完整分析中真正的部分,因为名词短语的处理存在一定的局限性。举例来说,浅层句法分析器可能会认为句子“We were punished by the leader of the group.”(我们被这个组长惩罚了。)中存在一个介词短语“by the leader”。但是,这个句子完整的分析结果并不包含这个PP,它包含的是另外一个介词短语,其中介词的宾语是“the leader of the group”。因为浅层句法分析器不能决定附着关系,因此,并不能生成恰当的解读结果。这也给你留下了选择的余地。有一些系统识别介词但并不分析PP;而另一些系统先生成不正确的解释,然后依靠语义分析过程来纠正分析中的错误。
由于覆盖范围的限制,浅层句法分析系统可以基于正则文法(等同于有限状态自动机),而不需要采用具有完全能力的上下文无关文法。它们还经常采用一个子系统来准确地估计出每个词的词性。我们会在下一章讨论这样的词性标注系统。目前,你可以简单地假定输入时给定了正确的词性。
这种系统输出的是语法片段序列,其中有一些语法片段和功能词语的词类一样小,而另一些则与复杂的动词序列和NP一样大。当面对未知词语的时候,浅层句法分析器会简单地跳过它并继续下一个分析。即使是在受限的语法中,仍然可能存在歧义,浅层句法分析器通常会使用启发式知识来减少这种可能性。一种通行的做法是在类型相同的条件下,较长的成分优先于短成分。因此,启发式知识会把“ The house boats”解析为一个NP,而不是两个NP(“The house”和“boats”),尽管后者也有可能。
给定输入“We saw the house boats near the lake sink unexpectedly at dawn.”(黎明的时候,我们看到湖边宽敞的游艇出人意料地沉没了。)图2给出了这种系统可能生成的语法成分序列。
图2 “We saw the house boats near the lake sink unexpectedly at dawn.”的浅层句法分析
责任编辑:admin