返回

机翻技术

搜索 导航
超值满减
项的分类和分类词典
2023-01-09 09:24:54    etogether.net    网络    


分类词典可以是人工编制的,也可以从语料库中自动生成。

人工编制分类词典,能够提供较为准确的、不依赖于特定文档集的分类信息。但是,由于文档集往往是按不同的领域组织的;因此,通用的分类词典(如概念词典),分类粒度较粗,对特定领域的分类信息,表现能力严重不足;而分别地为每个领域编制分类词典,不仅工作量过于繁重,而且对领域的变化缺乏适应能力。


相比之下,自动构造分类词典是一种更为灵活的方法。其基本思想是首先计算项的相似度,生成项的相似度矩阵,再用和文档聚类相似的方法,生成项类。。此后,或者把项类加入到项集中,或者把项集中的项用项类来替代,两者都能有效地提高分类系统的性能。


项的相似度可由文档的向量表示求得。如表1所示,设文档数目为n,项的数目为m,文档Di用向量表示为:(Wi1,Wi2,…,Wim),Wij表示项tj在文档Di中的权重。那么,可把tj表示为(W1j,W2j,…,Wmj);同样地,有tk=(W1k,W2k,…,Wmk)。


表1文档的向量表示

表1.png


定义项的相似度式2.png;公式2可归一化为:式3.png


在允许非对称权重时,还可有如下的相似度计算公式。


式4.png


以及:


式5.png


式4.png


中的n表示文档数量,Wij的含义如前,Wijk表示项tj和tk在文档中的组合权重,由下式求得:



式6.png



这里tftjk表示项tj和tk的同现频率,dfjk表示同时出现项tj和tk的文档的数量。


计算所有项两两之间的相似度,可得到如表2所示的相似度矩阵,矩阵中i行j列的元素表示项t和,的相似度。


表2项相似度矩阵

表2.png


在求得项相似度矩阵后,可用和文档聚类相似的算法将项组织成项类。这里就不多介绍了。以上介绍的这些方法,都有着一定的效果,但也面临着同样的问题。为了准确地得到关于项的分布信息,需要大量的训练文档。即便如此,仍不能保证所求得的结果,能适用于其他的应用场合,同时,训练文档的获得和处理,都需要高昂的代价。



责任编辑:admin




[上一页][1] [2] 【欢迎大家踊跃评论】

上一篇:篇章结构关系图
下一篇:项的区分度

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们