会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

向量空间模型

发布时间: 2023-01-04 09:21:59   作者:etogether.net   来源: 网络   浏览次数:
摘要: 最为著名的应用该模型的检索系统是Smart系统,下面先介绍一下VSM模型的基本概念。


向量空间模型(Vector Space Model,VSM)是60年代末由Gerard Salton等人提出的。其中最为著名的应用该模型的检索系统是Smart系统。下面先介绍一下VSM模型的基本概念。


(1)文档(Document):泛指一般的文献或文献中的片断(段落、句子组或句子),一般指一篇文章。

(2)项(Term):当文档的内容被简单地看成是它含有的基本语言单位(字、词、词组或短语等)所组成的集合时,这些基本的语言单位统称为项,即文档可以用项集(Term List)表示为D(T1,T2,…,Tn),其中Tk是项,1≤k≤n。

(3)项的权重(Term Weight):对于含有n个项的文档D(T1,T2,…,Tn),项Ti常常被赋予一定的权重Wk,表示它们在文档中的重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn),简记为D=D(W1,W2,…,Wn)。这时我们说项Tk的权重为Wk,1≤k≤n。

(4) 向量空间模型(VSM):给定一文档D=D(T1,W1;T2,W2;…;Tn,Wn),由于Tk在文档中既可以重复出现又应该有先后次序的关系,分析起来仍有一定的难度。为了简化分析,可以暂不考虑Tk在文档中的先后顺序并要求Tk互异(即没有重复)。这时可以把T1,T2,…,Tn,看成一个n维的坐标系,而W1,W2,…,Wn为相应的坐标值,因而D(W1,W2,…,Wn)被看成是n维空间中的一个向量(如图1中的D1,D2)。我们称D(W1,W2,…,Wn)为文档D的向量表示。

(5)相似度(Similarity):两个文档D1和D2之间的(内容)·相关程度(Degree of Relevance)常常用它们之间的相似度Sim(D1,D2)来度量。当文档被表示为VSM,我们可以借助于向量之间的某种距离来表示文档间的相似度。常用向量之间的内积来计算:


图1.png

或用夹角余弦值来表示:


图2.png


如图1所示。


图3.png


图1文档的向量空间模型(VSM)及文档间的相似度Sim(D1,D2)



责任编辑:admin


微信公众号

  • 上一篇:项的区分度
  • 下一篇:双向图算法分析器


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)