在此将探讨识别代词的先行词的一种简单方法。最简单的方法是历史记录列表,它是在前面句子基础上生成的篇章实体的列表。根据前文的介绍,历史记录列表就是一个结构的序列,这些结构对应于前面局部上下文的篇章实体。列表中首先列出来自于当前局部上下文的实体(即前一个子句生成的实体),然后是前一个句子的局部上下文中的实体,依次类推。
我们知道代词可指代同一个句子中的对象,并推导出了一系列共指约束。这些约束说明,在同一个句子中,每个代词的先行词可能或者不可能是哪些对象。这些约束也影响了句子之间的情况。例如,即使在不同句子之间出现的同一个对象,自反性约束也存在,如下面的篇章:
11a. Jack saw Sam at the party. (在晚会上Jack看见了Sam。)
11b. Sam gave him a drink. (Sam给了他饮料。)
在这个例子中,自反性约束表明“him”和11b中的“Sam”不能互指。这也禁止了代词“him”与句子11a中的由“Sam”引发的篇章实体互指。
代词的可能的先行词并不限于在局部上下文中出现,但是局部上下文对解决代词指代问题非常重要。代词的大部分先行词都出现在同一个句子中或局部上下文中。提及的先行词离当前篇章越远,被某一代词指代的可能性就越小。
一旦定义了由句子生成篇章实体的算法后,历史记录列表的概念就非常简单。历史记录列表包括最近产生的所有篇章实体。一些系统允许最近一个或两个局部上下文,而另外一些允许历史记录列表无限制增长。给定一个历史记录列表,搜索一个先行词的算法描述如下:检验最近的局部上下文,发现满足该代词的所有约束的先行词。约束可以来自于任何来源。例如,自反性约束将限制一些对象成为先行词;性别和数的约束排除了另外一些对象;而施加选择性的约束条件所产生的约束可能会进一步引入其他约束。如果当前局部上下文中没有发现先行词,则移到下一个最近的局部上下文中并进行搜索。这一算法执行了所谓的“最近约束”(recency constraint),该约束规定先行词应该是满足所有约束的最近提及的对象。例如,下面关于帆船比赛的场景:
12a. The companies had a lot of money and spent lavishly on their boat.
(这些公司有很多钱,并花了很多钱在船上。)
12b. The boys, in contrast, built their boat on a tight budget.
(相反地,这些小孩却只有很少的钱来造船。)
12c. They knew they would win the race easily.
(他们知道自己能够很轻易地获胜。)
尽管单纯基于语义也可能是那些公司认为他们自己能够赢得比赛,但是句子12c中的“they”很可能还是指那些孩子。
句子12c的历史记录列表如图1 所示。为了寻找代词“they”的先行词,可以寻找满足代词约束条件的历史记录列表中的第一个对象。在这种情况下,答案是满足THEY1(x)的一个对象x,也就是任何一个复数的对象。第一个被检验的实体B2被选择为一个指代对象。同样的方法也可以应用到定指性描述中。例如,如果句子12c为“They knew the boat would win easily”,那么“the boat”所指的是满足约束BOAT(x)的第一个对象B3。
图1 由篇章12生成的历史记录列表
在很多计算方法中,历史记录列表是一种基本的方法。我们必须进一步改进这一方法以便能够处理特殊情况。
责任编辑:admin