- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
主题分析和聚类即进行意段分析,目的是想了解篇章所表达思想内容的深层结构和各层次之间的内在关系。分析的内容包括:①篇章的主题数,即文章由几个相对独立的部分组成:②各段落所属的主题;③各个主题(或者段落)之间的相关程度。通过调整相似度的门限(或图中边的数目)来观察关系图的动态变化规律,我们便可以用关系图进行主题分析和聚类。
图1是《反对自由主义》的关系图(标题作为第一段,总共有23个自然段)。当取前32条相似度最大的边(相似度的门限为0.0056,边的数目不宜超过顶点数太多)时,原图被划分为8个互不连通的部分,每一部分构成一连通的子图(包括孤立结点)。这时,属于同一连通子图的各个段相似度较大,而属于不同子图的各段相似度较小。事实上,这是自然段按内容相似程度进行了粗略的主题聚类,即我们可以认为同一连通子图中的各段属于同一主题,而连通子图数即为篇章的主题数。图1中除了孤立结点之外,其他含有两段以上的主题有:
TH1={1,4,15,17,19,20,21,23}一围绕自由主义的各种问题展开讨论
TH2={6,10,11,1,14,22}一列举自由主义的各种不良表现
TH5={8,18}一讨论组织性、纪律性问题
TH={2,3}一党和革命团体中的思想斗争问题
THs={7,13}一自由主义的办事态度和为人处世
图1《反对自由主义》的关系图
(共23段,取前32条边,相似度门限为0.0056,图中被划分为8个主题)
图2