会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

项的区分度

发布时间: 2023-01-06 09:24:20   作者:etogether.net   来源: 网络   浏览次数:
摘要: 将文档集中所有文档间的相似度Sim(Di,Dj)(i≠j)都计算出来,则可得到文档集的平均文档相似度。


项的区分度的方法最初是由H.P. Luhn提出的。假设Di和Dj表示两个文档,每个文档都是一组项组成的集合。用Sim(Di, Dj)表示两个文档之间的相似度,相似度取值范围为[0,1]。如果两个文档符合得很好,则相似度取1;而如果两个文档几乎没有共同之处,相似度取0;否则取中间值。


将文档集中所有文档间的相似度Sim(Di,Dj)(i≠j)都计算出来,则可得到文档集的平均文档相似度


式1.png


上式表示了文档空间的“密度”,即文档之间结合的程度。

文档空间密度还可以通过称作文档重心(Centroid)的文档字母1.png来表示。在字母1.png中,所有的项都用该项在文档集中的平均频数来表示:


式2.png


这样文档密度可表示为


式3.png


现在假设将项Tk从所有的文档表示中移去,用(AvgSim)k表示此时的空间密度。如果该项出现频数较高,并且分布比较均匀,它就可能出现在大部分文档中,去掉该项将会降低平均相似度,用这种项作为表示文档的索引项显然不合适。相反如果项Tk在一些文档中具有较高频数而在另一些中几乎不出现,它的消除将会增加平均相似度。


这样区分度DV可定义如下:


式4.png


计算出所有项的区分度,并且按其值从大到小排列,我们可以得到三种类型的项:

(1)具有较好的区分度的项,其DV值为正值,它们的引入会降低空间密度(如图1)。

(2)一般的项,其DVk值接近于0,它们的引入或消除对平均相似度没有影响。

(3)具有较差区分度的项,其DVk值为负值,它们的引入使文档间的相似度增加。


图1.png

图1具有好的区分度的项示例



利用项的区分度公式,考虑到项Tk在文档Di中的项频FREQk,可定义项Tk在文档Di中的权重评价函数如下:


式5.png


责任编辑:admin


微信公众号

  • 上一篇:项的分类和分类词典
  • 下一篇:向量空间模型


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)