分类词典可以是人工编制的,也可以从语料库中自动生成。
人工编制分类词典,能够提供较为准确的、不依赖于特定文档集的分类信息。但是,由于文档集往往是按不同的领域组织的;因此,通用的分类词典(如概念词典),分类粒度较粗,对特定领域的分类信息,表现能力严重不足;而分别地为每个领域编制分类词典,不仅工作量过于繁重,而且对领域的变化缺乏适应能力。
相比之下,自动构造分类词典是一种更为灵活的方法。其基本思想是首先计算项的相似度,生成项的相似度矩阵,再用和文档聚类相似的方法,生成项类。。此后,或者把项类加入到项集中,或者把项集中的项用项类来替代,两者都能有效地提高分类系统的性能。
项的相似度可由文档的向量表示求得。如表1所示,设文档数目为n,项的数目为m,文档Di用向量表示为:(Wi1,Wi2,…,Wim),Wij表示项tj在文档Di中的权重。那么,可把tj表示为(W1j,W2j,…,Wmj);同样地,有tk=(W1k,W2k,…,Wmk)。
表1文档的向量表示
定义项的相似度;公式2可归一化为:
。
在允许非对称权重时,还可有如下的相似度计算公式。
以及:
中的n表示文档数量,Wij的含义如前,Wijk表示项tj和tk在文档中的组合权重,由下式求得:
。
这里tftjk表示项tj和tk的同现频率,dfjk表示同时出现项tj和tk的文档的数量。
计算所有项两两之间的相似度,可得到如表2所示的相似度矩阵,矩阵中i行j列的元素表示项t和,的相似度。
表2项相似度矩阵
在求得项相似度矩阵后,可用和文档聚类相似的算法将项组织成项类。这里就不多介绍了。以上介绍的这些方法,都有着一定的效果,但也面临着同样的问题。为了准确地得到关于项的分布信息,需要大量的训练文档。即便如此,仍不能保证所求得的结果,能适用于其他的应用场合,同时,训练文档的获得和处理,都需要高昂的代价。
责任编辑:admin