机翻技术

搜索导航

项的分类和分类词典

2023-01-09 09:24:54 etogether.net 网络次

分类词典可以是人工编制的，也可以从语料库中自动生成。

人工编制分类词典，能够提供较为准确的、不依赖于特定文档集的分类信息。但是，由于文档集往往是按不同的领域组织的；因此，通用的分类词典（如概念词典），分类粒度较粗，对特定领域的分类信息，表现能力严重不足；而分别地为每个领域编制分类词典，不仅工作量过于繁重，而且对领域的变化缺乏适应能力。

相比之下，自动构造分类词典是一种更为灵活的方法。其基本思想是首先计算项的相似度，生成项的相似度矩阵，再用和文档聚类相似的方法，生成项类。。此后，或者把项类加入到项集中，或者把项集中的项用项类来替代，两者都能有效地提高分类系统的性能。

项的相似度可由文档的向量表示求得。如表1所示，设文档数目为n，项的数目为m，文档Di用向量表示为：（Wi1，Wi2,…，Wim），Wij表示项tj在文档Di中的权重。那么，可把tj表示为（W1j，W2j,…，Wmj）；同样地，有tk=（W1k，W2k,…，Wmk）。

表1文档的向量表示

表1.png

定义项的相似度式2.png ；公式2可归一化为：式3.png 。

在允许非对称权重时，还可有如下的相似度计算公式。

式4.png

以及：

式5.png

式4.png

中的n表示文档数量，Wij的含义如前，Wijk表示项tj和tk在文档中的组合权重，由下式求得：

式6.png 。

这里tftjk表示项tj和tk的同现频率，dfjk表示同时出现项tj和tk的文档的数量。

计算所有项两两之间的相似度，可得到如表2所示的相似度矩阵，矩阵中i行j列的元素表示项t和，的相似度。

表2项相似度矩阵

表2.png

在求得项相似度矩阵后，可用和文档聚类相似的算法将项组织成项类。这里就不多介绍了。以上介绍的这些方法，都有着一定的效果，但也面临着同样的问题。为了准确地得到关于项的分布信息，需要大量的训练文档。即便如此，仍不能保证所求得的结果，能适用于其他的应用场合，同时，训练文档的获得和处理，都需要高昂的代价。

责任编辑：admin

[上一页][1] [2] 【欢迎大家踊跃评论】

上一篇：篇章结构关系图
下一篇：项的区分度

微信公众号搜索“译员”关注我们，每天为您推送翻译理论和技巧，外语学习及翻译招聘信息。

相关机器翻译技术文章