会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

项的分类和分类词典

发布时间: 2023-01-09 09:24:54   作者:etogether.net   来源: 网络   浏览次数:


分类词典可以是人工编制的,也可以从语料库中自动生成。

人工编制分类词典,能够提供较为准确的、不依赖于特定文档集的分类信息。但是,由于文档集往往是按不同的领域组织的;因此,通用的分类词典(如概念词典),分类粒度较粗,对特定领域的分类信息,表现能力严重不足;而分别地为每个领域编制分类词典,不仅工作量过于繁重,而且对领域的变化缺乏适应能力。


相比之下,自动构造分类词典是一种更为灵活的方法。其基本思想是首先计算项的相似度,生成项的相似度矩阵,再用和文档聚类相似的方法,生成项类。。此后,或者把项类加入到项集中,或者把项集中的项用项类来替代,两者都能有效地提高分类系统的性能。


项的相似度可由文档的向量表示求得。如表1所示,设文档数目为n,项的数目为m,文档Di用向量表示为:(Wi1,Wi2,…,Wim),Wij表示项tj在文档Di中的权重。那么,可把tj表示为(W1j,W2j,…,Wmj);同样地,有tk=(W1k,W2k,…,Wmk)。


表1文档的向量表示

表1.png


定义项的相似度式2.png;公式2可归一化为:式3.png


在允许非对称权重时,还可有如下的相似度计算公式。


式4.png


以及:


式5.png


式4.png


中的n表示文档数量,Wij的含义如前,Wijk表示项tj和tk在文档中的组合权重,由下式求得:



式6.png



这里tftjk表示项tj和tk的同现频率,dfjk表示同时出现项tj和tk的文档的数量。


计算所有项两两之间的相似度,可得到如表2所示的相似度矩阵,矩阵中i行j列的元素表示项t和,的相似度。


表2项相似度矩阵

表2.png


在求得项相似度矩阵后,可用和文档聚类相似的算法将项组织成项类。这里就不多介绍了。以上介绍的这些方法,都有着一定的效果,但也面临着同样的问题。为了准确地得到关于项的分布信息,需要大量的训练文档。即便如此,仍不能保证所求得的结果,能适用于其他的应用场合,同时,训练文档的获得和处理,都需要高昂的代价。



责任编辑:admin



微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:篇章结构关系图
  • 下一篇:项的区分度


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)