返回

机翻技术

搜索 导航
超值满减
主题分析和聚类
2023-01-13 09:28:00    etogether.net    网络    


主题TH1围绕自由主义的各种问题展开讨论,由前面图2的分析我们知道第18~23段分别阐述自由主义的危害(18段)、来源(19段)、对马列的态度(20段)、性质(21段)、如何克服(22段)、结论并点题(23段)。在对图2的分析时已经指出第22段和第18段与其余各段的相似度较小,随着相似度门限的加大,在图1中它们不再属于同一主题而分别被划入主题TH2和TH3。第4、第17、第15段都明显提到自由主义的各种表现,它们和题目相关性很大,因而也被归入主题TH1中。


主题TH2主要由列举自由主义的各种不良表现的段落组成,图中我们看到第22段因为与第11段相关而被归入第11段所在的主题。显然第11、22、12段都是讨论“党群关系中的自由主义和群众利益”的问题,它们在内容上紧密相关,所以归入同一主题。其他主题的分析类似。


关系图还可用来简略分析篇章各主题之间的内部层次关系。我们知道,篇章各部分内容的层次关系往往符合一定的语义关联原则:描述同一主题内容(即同一层次)的各段相关性大于不在同一主题内的各段。因此,可以按段间相似度进行层次分析(仍用动态调整相似度门限或关系图中连通分支数的办法进行)。


图3是用关系图对图1进行层次分析所得到的聚类树,这里只给出四层(相应的主题数为1,2,4,8)。减少门限变化的幅度,可以得到更详细的分类层次,以满足不同用户的需要。对特定的篇章,主题数目越多(相似度门限越大),每个主题覆盖的内容就越窄。由图3我们看到第16段(原文为:“还可以举出一些。主要的有这十一种”)保持很强的稳定性,不会与其他段发生主题合并。事实上,第16段只是过渡性的插入语,内容上的差异导致了它与其他各段的相对独立性。



图3.png

图3 篇章主题(段落)的聚类与层次关系



责任编辑:admin




[上一页][1] [2] 【欢迎大家踊跃评论】

上一篇:基于语言学知识的分析方法
下一篇:篇章结构关系图

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们