- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
图17.1一个经简化的决策表用于从bass的音乐涵义中区分出鱼的涵义。取自Yarowsky(1996)
自举方法
监督方法的一个主要缺点是需要大规模的已标注涵义的训练集。自举方法(bootstrapping approach)(Hearst,1991;Yarowsky,1995)消除了对这种大规模训练集的依赖,只需每个感兴趣词位的每个涵义的少量例句。这些标注的例句被当成种子(seed)供上面所介绍的任何一种监督学习方法使用,以便于训练出一个最初的分类器。然后,这个最初的分类器被用于从剩余的未标注语料库中抽取较大的训练集。重复这个处理将生成一系列精度和覆盖率逐步提高的分类器。
该方法的关键点在于能够从小的种子集生成较大规模的训练集。为了获得成功,它必须只包括那些在最初分类器中具有高可信度的实例。然后,较大的训练集用于生成一个更精确并具有更高覆盖率的新分类器。随着每次的重复处理,训练语料不断增加而未标注语料不断减少。与大部分重复方法一样,这个处理可以持续进行,直到训练集的错误率足够低或直到未标注语料中没有高于阈值的例子。
许多方法都可以用于生成这些自举方法的最初的种子训练集。Hearst(1991)通过从原始语料库手工标注小的例子集的方式来生成种子集。这个方法主要有下面三个优点:
• 可以保证种子集中的实例是正确的,从而使学习者不至于从错误的实例开始。
• 人工分析不但可以选出正确的例子,而且可以选出每个涵义的典型例子。
• 非常容易实现。
另一个可供选择的有效技术是查找包含与目标涵义有紧密联系的单词或短语的那些句子。Yarowsky(1995)称之为“一个搭配一个涵义” ( One Sense per Collocation)的约束,给出的实验结果证明这种方法能够产生相当好的结果。为了说明这种技术,考虑我们希望为bass鱼的涵义和音乐的涵义生成一个合理的种子集的情形。不用苦思冥想,就可能提出用fish作为bass¹的合理指示者,而用play作为bass²的合理指示者。图17.2所示的是这种用字符“fish”和“play”在从WSJ抽出的bass例句库中查找而得到的部分结果。
当然,我们也希望能够自动给出这些相关的单词。Yarowsky(1995)对选择有效的相关单词给出了两个建议:从机器可读词典的条目中抽取,或利用第6章讲述过的那些搭配统计来选择种子。对于一个涉及12个单词的大致的二元指派,Yarowsky(1995)报告的平均性能达96.5%。在这些实验中,利用相关性找出的种子句通过自举方法而获取训练集,这些训练集被用于为每个单词训练一个决策表分类器。
图17.2 利用play和fish与bass的相关性从WSJ中抽取的bass例句
非监督方法:单词涵义的发现
词义排歧的非监督方法在训练中避免使用任何已标注涵义的数据。在这些方法中,以表示未标注实例的特征向量为输入,然后根据一个相似矩阵将它们分为一些聚类(cluster)。这些聚类可以被表示为其组成部分的特征向量的平均值,并且手工标注为已知的涵义。对于那些未经训练的具有特征编码的实例,可以通过指派与它们最接近的聚类(根据相似矩阵判断)的涵义而加以分类。
幸运的是,聚类(clustering)是一个被深入研究过的问题,已经有许多标准算法可应用于以数值向量为结构的输人(Duda and Hart, 1973)。在语言应用中经常使用的一种技术称为合并聚类(agglomerative clustering)。在这项技术中,最初每N个训练实例被指派为一个单独的类,然后通过持续合并最相似的两个类,以自底向上的方式形成新的类。这种处理一直持续到到达指定的类组数,或类组之间满足一些全局的良好性标准。为了避免大量训练实例而造成计算开销,随机抽样可用于最初的训练集(Cutting et al.,1992b),以达到相似的结果。
非监督方法不使用手工标注数据的事实,给所有聚类结果的评测带来了许多挑战。下面是非监督方法不得不面对的一些最重要的问题:
可能并不知道用于训练数据的实例的正确涵义。
几乎可以肯定聚类中所包含的训练实例具有各种各样的涵义。
聚类的数目与被排歧目标词的涵义数目几乎总是不等的。
Schütze的实验(Schütze,1992,1998)构建了将非监督聚类用于词义排歧的完全的应用系统。尽管实际技术相当复杂,但是核心方法仍然是非监督聚类。Schütze的结果表明对于近似的二元区分,非监督技术的结果能够逼近那些监督和自举方法的结果,大部分实例的结果接近对比结果的90%。与大部分监督方法一样,该方法也只是对少数单词样例进行了测试。
责任编辑:admin