- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
向量空间模型的分析方法可以应用在篇章分析中,这时需要把篇章与上述的文档集对应,而篇章中的段落与上述的文档对应,分别求出每两段之间的相似度,即可建立篇章的关系图。图中顺序排列的结点表示段落,结点标号表示段号,带权的边表示段间的相似关系(权值为段间的相似度)。具有m段的篇章,关系图中最大的边数可达m(m-1)/2。为了简化,一般只保留权值较大的边。图1是中学教材上毛泽东主席写的《反对自由主义》中的标题和最后六段(原文共23段,这里只摘出一部分)的关系图。图中结点标出相应的段号及段落大意(下面讨论),这里略去相似度小于0.005以下的边。
关系图能直观地表示篇章的许多信息。如由图1我们看出第1段(题目)和第21、23段相似度最大,而第18段、22段分别和其他所有段的相似度最小。但总的说来还是一幅连通图,即各段之间的相关程度还是较大的。从原文的内容上看,第18段指出了自由主义对革命的组织性和纪律性所产生的危害,第19~21段分别指出其来源、对马列主义的态度、其性质,第22段讨论处理党群关系时如何克服自由主义,第23段在下结论时点出文章的主题(图中也可以看出第1、23段之间的相似度最大)。因此,各段都是围绕“自由主义”这一问题展开讨论的。
图1《反对自由主义》的标题与最后六段所组成文档的关系图
(顶点表示段号,带权的边表示段间相似度,略去相似度小于0.005的边。)