- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
在机器学习方法中,通过训练(train)系统以完成词义排歧的任务。通过这些方法学习得到的是一个分类器,这个分类器可以用于为那些未经训练的实例从固定数目的涵义中指派一个涵义。这些方法随训练语料的性质、所用语料的规模、人工干预的程度、所用语言学知识的类型以及生成的输出的不同而不同。它们的共同点在于:是从数据获取任务所需的知识而不是通过人工分析。在探讨这些方法时需要牢记的首要问题是该方法是否具有规模,也就是说,是否可能将该方法应用于整个语言的绝大部分词汇?
输入:特征向量
在大多数方法中,原始输入是由两部分组成的:需要排歧的单词,我们称之为目标词(target word).以及目标词所嵌入的一部分文本,我们称之为上下文(context)。我们以下面的方式来处理原始输入:
• 通常利用高精度方法对输入进行词性标注。
• 可能用围绕目标词的较大或较小的文本片断来代替原始上下文。
• 常常对上下文中的所有单词进行一些词干处理,或更复杂的形态处理。
• 也有少数系统,利用部分剖析的某些形式或依存剖析来确定题元或语法角色和关系。
在这些最初的处理之后,我们需要从输入中抽取用于捕捉与学习任务有关的信息的固定特征集。这个学习任务由两个步骤组成:选择相关的语言学特征以及将它们编码为学习算法可用的形式。一个简单的特征向量(feature vector)由一系列能很容易地将最常用的语言信息进行编码并且适用于大部分学习算法的数值(numeric value)或标称值(nominal value)组成。
在训练词义排歧(简称为WSD)系统时所用的语言特征可以大致分为两类:搭配特征和共现特征。通常,术语“搭配”指两个单词项之间可以量化的特定位置的关系。搭配特征所编码的信息是关于占据目标词的左边或右边的特定位置的词汇。典型的特征包括单词、单词的词根以及单词的词性等。这些特征可以有效地用于对局部的词汇和语法信息进行编码,而这些局部的词汇和语法信息常常可以精确地分离出一个已知的涵义。
作为这类特征编码的例子,研究下面需要对单词bass进行排歧的例子:
An electric guitar and bass player stand off to one side, not really part of the (17.11)
scene, just as a sort of nod to gringo expectations perhaps.
则可生成下面的由目标词左边和右边各两个单词以及它们相应的词性所组成的特征向量:
[ guitar, NN1, and, CJC, player, NN1, stand, VVB]
第二种类型的特征由这些相邻词的同现数据组成,此时并不考虑每个词的具体位置。在这个方法中,以单词本身(或它们的词根)为特征。在围绕目标词的区域中,单词出现的次数被称为特征值。这个区域常常定义为一个以目标词为中心的固定大小的窗口。为了使该方法具有可操作性,一小部分常用实义词被选为特征。这种特征可以有效地捕捉出现目标词的话语的普通主题。这些特征也有助于识别那些用于特定领域的单词的涵义。
例如,从WSJ语料库抽出的包含单词bass的句子集可以统计出12个最常用的实义词:fishing,big, sound, player, fly, rod, pound, double, runs, playing, guitar, band。可以由这12个词为特征组成一个共现向量。用这些词为特征,以句子中的10个单词数为窗口,则例句(17.11)可以表示为下面的向量:
[0,0,0,1,0,0,0,0,0,0,1,0]
我们将会看到,大部分用于排歧的鲁棒的方法都同时利用了搭配特征和共现特征。
监督学习方法
在监督学习方法中,词义排歧系统是从与所用测试集分布相同的具有代表性的已标注实例集中学习得到的。这是把监督学习方法用于产生分类器的应用。在这类方法中,同时需要一个学习系统和一个训练集,这个训练集是由带有特征编码的输入与它们的正确标记或正确类别共同组成的。该系统的输出是一个能够为新的带有特征编码的输入指派标记的分类系统。