- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
词汇关系在语言学、心理语言学和计算研究中的作用激发了许多针对这种关系建立大型电子信息库的工作。通常,建立这类信息库的工作都是按照下面两种基本方法中的一种进行的:或者从现有词典或辞书中挖掘信息,或者东拼西凑地手工建立一个信息库。尽管重用现有资源的方法具有明显的优势,最大规模和最广泛使用的英语词汇信息库WordNet,却是手工建成的(Fellbaum,1998)。
WordNet由3个独立的信息库组成:名词库、动词库以及形容词和副词共同的库。WordNet中不包括封闭词类的词汇项。每个库都由一组对应于惟一正字形的词汇条目与每个字形相关的一组涵义构成。图1给出的是1.6版WordNet中的词汇规模。这个信息库可以通过浏览器(本地或Internet)直接登录,也可以使用一组C库函数通过程序的方式登录。
图1当前WordNet 1.6版中词汇的规模,依据的是4个信息库中的惟一条目和总的涵义数
WordNet涵义条目的最完整形式由一组同义词、一个词典风格的定义或注释和一些用法示例组成。图2中所示的是WordNet中名词条目bass的简化版。从这个条目可以看出,WordNet的条目和词位的概念有几个重要的不同。首先,WordNet不包括发音信息,因此并不区分不同发音的词位。例如,本条目的bass,bass和bass8都是鱼的涵义,发音为[b ae s],而其他都是音乐的涵义,发音为[b ey s]。更概括地讲,在WordNet中并不区分同形关系与多义关系。例如,就这个条目而言,bass¹和bass²,bass¹和bass4所具有的关系并没有差别。这种保守的处理策略反映出,尽管我们对词的那些截然不同的涵义具备相当可靠的诊断,但是系统地组织这种多义涵义仍是一种不确定和
主观的行为。正因为如此,WordNet的开发者选择简单地列出这些不同的涵义,并不将它们清楚地组织成我们在许多词典中见过的那种层次结构的方式。
图2 WordNet 1.6中名词条目bass的部分内容
图3给出了整个动词库中的大致涵义分布。WordNet中的所有动词根据所具有的涵义数目被分级。从图3可以看出,该分布是极端不对称的,少数条目具有大量的涵义,而大多数条目只具有单个涵义。当处理词典时普遍存在这种分布,称为Zipf分布(Zipf,1949)。动词库的多义程度大于名词库。这与英语中的动词数远少于名词数,但它们的意义却更具有可塑性的事实是一致的。
图3 WordNet中动词的涵义分布。y轴表示每个WordNet条目的涵义数,x轴按动词的多义程度将它们分级。从图中可以看出,少数动词条目具有很高的多义程度,而大多数条目只具有单个涵义