会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

向量空间模型

发布时间: 2022-08-24 09:24:49   作者:etogether.net   来源: 网络   浏览次数:
摘要: 表示为由文档集里出现的检索词组成的特征向量,每个特征值表示在指定的文档中某个特定检索词的出现或缺席。


在信息检索的向量空间模型(vector space model)中,文档和查询条件被表示为说明检索词出现的特征向量(Salton,1971)。更准确地说,它们被表示为由文档集里出现的检索词组成的特征向量,每个特征值表示在指定的文档中某个特定检索词的出现或缺席。这些向量可以表示为:


图1.png


符号图2.png图3.png表示特定的文档和查询条件,而各种t特征表示这N个检索词作为整体出现在文档集里。我们首先考虑这些特征的值为1或0时,即说明某个检索词出现或缺席于一个问答或查询条件时的情形。对于这种方法来说,确定一个文档和查询条件的相关性的简单方法是确定它们共同的单词数。这可以通过下面的简单相似性计算公式来完成:


17.17.png


在这个方程中,查询条件向量图3.png和文档向量图2.png之间的相似性是通过对它们的共同单词数进行简单相加来衡量的。


显然,采用二元值的特征会带来一个问题,我们无法捕捉到对于文档的意义来说一些检索词比另一些检索词更重要这一事实。一个有用的一般化原则是,用数值的权重(weight)代替0和1,以说明各种检索词在特定文档和查询条件中的重要性。那么,我们可以将向量一般化为:


图4.png


把文档特征化为检索词权重的向量,容许我们把整个文档集看成是一个权重矩阵,Wij表示检索词i在文档j中的权重。这个权重矩阵被特别地称为检索词乘文档矩阵(term-by-document matrix)。按照这种观点,矩阵的列表示文档集里的文档,而矩阵的行表示检索词。


把在该模型中用于表示文档(和查询条件)的特征看成是多维空间中的一组维度是有用的。相应地,作为那些特征的值的权重,可用于确定文档在该空间中的位置。当用户的查询条件被转换为表示空间中的一点的向量时,则可以认为位于该查询条件附近的文档与它的相关性大于位于远处的文档。


把文档和查询条件特征化为向量的形式为特定检索系统提供了所有基本构件。一个文档检索系统可以接受用户的查询条件,生成它的向量表示,然后把它与表示所有已知文档的向量进行对比,最后给出排序后的结果。该结果是一个按与查询条件的相似性排序的文档列表。


研究图17.3所示的该方法的例子。该图给出的是一个对应于检索词speech, language和processing的三维简单空间。该空间中的3个向量分别表示由第1章、第7章和第13章的章节标题文字所组成的文档,分别以Doc1,Doc7和Docl3表示。如果使用原始的文档词频作为权重,则Docl由向量(1,2,1)表示,Doc7由向量(6,0,1)表示,Doc13由向量(0,5,1)表示。图中清楚地表明,这个空间捕捉到了这几章内容如何相关的某些直觉。第1章的内容由于是综合的,与第7章和第13章都还算类似,而第7章和第13章由于讲述的是不同的主题,它们的距离很远。



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
  • 上一篇:改进用户的查询条件
  • 下一篇:基于词典的方法


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)