返回

机翻技术

搜索 导航
超值满减
向量空间模型
2023-01-04 09:21:59    etogether.net    网络    


向量空间模型(Vector Space Model,VSM)是60年代末由Gerard Salton等人提出的。其中最为著名的应用该模型的检索系统是Smart系统。下面先介绍一下VSM模型的基本概念。


(1)文档(Document):泛指一般的文献或文献中的片断(段落、句子组或句子),一般指一篇文章。

(2)项(Term):当文档的内容被简单地看成是它含有的基本语言单位(字、词、词组或短语等)所组成的集合时,这些基本的语言单位统称为项,即文档可以用项集(Term List)表示为D(T1,T2,…,Tn),其中Tk是项,1≤k≤n。

(3)项的权重(Term Weight):对于含有n个项的文档D(T1,T2,…,Tn),项Ti常常被赋予一定的权重Wk,表示它们在文档中的重要程度,即D=D(T1,W1;T2,W2;…;Tn,Wn),简记为D=D(W1,W2,…,Wn)。这时我们说项Tk的权重为Wk,1≤k≤n。

(4) 向量空间模型(VSM):给定一文档D=D(T1,W1;T2,W2;…;Tn,Wn),由于Tk在文档中既可以重复出现又应该有先后次序的关系,分析起来仍有一定的难度。为了简化分析,可以暂不考虑Tk在文档中的先后顺序并要求Tk互异(即没有重复)。这时可以把T1,T2,…,Tn,看成一个n维的坐标系,而W1,W2,…,Wn为相应的坐标值,因而D(W1,W2,…,Wn)被看成是n维空间中的一个向量(如图1中的D1,D2)。我们称D(W1,W2,…,Wn)为文档D的向量表示。

(5)相似度(Similarity):两个文档D1和D2之间的(内容)·相关程度(Degree of Relevance)常常用它们之间的相似度Sim(D1,D2)来度量。当文档被表示为VSM,我们可以借助于向量之间的某种距离来表示文档间的相似度。常用向量之间的内积来计算:


图1.png

或用夹角余弦值来表示:


图2.png


如图1所示。


图3.png


图1文档的向量空间模型(VSM)及文档间的相似度Sim(D1,D2)



责任编辑:admin




上一篇:项的区分度
下一篇:双向图算法分析器

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们