主题TH1围绕自由主义的各种问题展开讨论,由前面图2的分析我们知道第18~23段分别阐述自由主义的危害(18段)、来源(19段)、对马列的态度(20段)、性质(21段)、如何克服(22段)、结论并点题(23段)。在对图2的分析时已经指出第22段和第18段与其余各段的相似度较小,随着相似度门限的加大,在图1中它们不再属于同一主题而分别被划入主题TH2和TH3。第4、第17、第15段都明显提到自由主义的各种表现,它们和题目相关性很大,因而也被归入主题TH1中。
主题TH2主要由列举自由主义的各种不良表现的段落组成,图中我们看到第22段因为与第11段相关而被归入第11段所在的主题。显然第11、22、12段都是讨论“党群关系中的自由主义和群众利益”的问题,它们在内容上紧密相关,所以归入同一主题。其他主题的分析类似。
关系图还可用来简略分析篇章各主题之间的内部层次关系。我们知道,篇章各部分内容的层次关系往往符合一定的语义关联原则:描述同一主题内容(即同一层次)的各段相关性大于不在同一主题内的各段。因此,可以按段间相似度进行层次分析(仍用动态调整相似度门限或关系图中连通分支数的办法进行)。
图3是用关系图对图1进行层次分析所得到的聚类树,这里只给出四层(相应的主题数为1,2,4,8)。减少门限变化的幅度,可以得到更详细的分类层次,以满足不同用户的需要。对特定的篇章,主题数目越多(相似度门限越大),每个主题覆盖的内容就越窄。由图3我们看到第16段(原文为:“还可以举出一些。主要的有这十一种”)保持很强的稳定性,不会与其他段发生主题合并。事实上,第16段只是过渡性的插入语,内容上的差异导致了它与其他各段的相对独立性。
图3 篇章主题(段落)的聚类与层次关系
责任编辑:admin