把语义相近的项组织成项类,是一项重要的自动索引技术。项的分类可以分成以下几种情况:
(1)对于低频词来说,组织成词汇类之后,由于词汇类的频率高于每个词的频率,提高了低频词的区分度。
(2)英文单词有复杂的词尾变化和派生现象。前者如规则动词的一般过去时需在动词后加“ed”,名词的复数形式要加“s”或“es”;后者如形容词加上后缀“ly”可变为副词,动词加后缀“-ment”可变为名词。因此需通过特别的抽词干(Stemming)过程,把同源的词用同一个词来标记。如“retrieve”、“retrieval”、“retrieved”经过stemming过程后,都将变成“retriev”。
(3)通过把相似的项合并为项类,使得不同项类之间的相关程度较小,提高了独立性。
向量空间模型是建立在所有的项两两正交这一假设上的。即对任意的两个项ti、tj:
它们的内积 式1。显然,这种正交性假设是过于严格的,不能很好地反映自然语言的特征。
事实上,自然语言有着极为丰富的语言现象。例如词汇之间的关系,就有同义关系(父亲、爸爸)、近义关系(努力、竭力)、从属关系(人体、四肢)、关联关系(医生、护土)。在使用复合项时,项可以是字、词汇、短语、概念,此时项之间的关系就更加复杂。另外,不同的人在写文章时,有不同的用词习惯,两篇同类文章在选词上可以有相当大的差异。因此,简单地用余弦公式来计算文档之间的相似度,就不能很好地反映文档之间真实的相关程度。
为了提高文档处理系统的准确率,有必要引入分类词典,把相似的项组合起来。同义词和近义词一般有着相同的词汇类,如果我们在表示文档时,把词汇类也作为文档的描述项,那么内容相似,而仅在用词上有较大差异的文档,彼此之间的相似度就会大大增加用词汇的概念信息作为文档空间的项,也正是出于同样的目的。
分类词典一般是基于一个特定的领域而组织的。它通过把这一领域中的词汇组成词汇类,提供了一个从非受限的词汇集到受限的词汇类集之同的映射关系。进一步地,分类词典可构成更复杂的结构,如树形结构和网状结构,以反映词汇之间的从属关系和关联关系。