返回

机翻技术

搜索 导航
超值满减
自动索引的过程
2023-01-20 09:53:09    etogether.net    网络    


无论是否提供了索引词典,自动索引过程都可分成以下三个部分:候选主题词集的建立;权重的计算;主题词的生成。


1. 候选主题词集的建立

在提供了索引词典的情况下,候选词就是文档中出现的全部索引词的集合。文档中索引词的出现大致有三种情况。


(1)完全匹配。文档中出现了索引词典收录的词汇或短语。这时可简单地抽取出索引词。如从句子“向量空间模型的分析方法可以应用于篇章分析”中,即可抽出索引词“向量空间模型”和“篇章分析”。

(2)在索引词是短语的情况下,在文档中可能有不同的词序,组成短语的词之间也可能有其他的词。例如“中文信息的处理”中含有索引词“中文信息处理”,“检索用户所需的信息”中含有索引词“信息检索”。此时可以把索引词拆成一些单元词,分别与文档中的词匹配,再决定是否把这些单元词组合成索引词。)我们可以规定,如果文档中的某一句含有索引词的全部单元词,就抽取这一索引词。更复杂地,可规定单元词对于索引词的模糊隶属度,若句中所有的单元词隶属度之和超过某一阙值,则抽出该索引词。

(3)文档中含有索引词的一部分。例如“汉语的处理”中蕴含着索引词“中文信息处理”。理论上说,我们可以通过语义分析来判别是否需要从中抽出索引词,但由于语义分析的难度和所需的昂贵代价,一般情况下以不作处理为宜。

在没有提供索引词典的情况下,也需要仔细地建立起候选词集。并不是文档中出现的全部项都适合作为索引词。汉字一般情况下是不宜作为索引词的。对词汇来说,必须排除那些禁用词,并且把那些概念上相似的词汇,用相同的概念来表示。与词汇相比,短语和专有名词的专门性更强,更能反映文档的主题,是更合适的主题词。因此,必须用统计或句法分析的方法,自动地生成短语和专有名词。


词性标注和句法分析也有助于判断一个词是否需加入候选词集中。这是因为,大多数主题词是名词,只有一小部分是动词。特别地,作为短语的索引词,基本上都是名词性质的。因此,我们在建立候选词集时,可不考虑标注为其他词性的词汇。另外,主题词在句中的语法功能一般是主语、谓语、宾语和介词宾语。但这些信息也不是绝对的,在实际应用时要仔细考虑。


2. 权重的计算

候选词权重的计算公式是多种多样的,散见于有关文献中的就有三十多种,侧重点也不同。使用时要根据具体情况加以选用。以下是几个常用的权重计算公式(fik表示项Tk在文档Di中的文档内频数,dfk表示项Tk的文档频数,idfk表示项Tk的反比文档频数,N表示文档集中的文档数量,nk表示项Tk的文档频数):


图1.png


除了频率信息外,位置信息也是权重计算的一个重要因素。统计数据表明,标题中60%以上的词可作为文本的主题词。在文本的起始段、结尾段中出现的词一般都反映了文档的主要内容。每一段中,段首和段尾句中的词也是比较重要的。有些科技文献含有摘要段,对于摘要段中的词,我们也应加大它们的权重。


3. 主题词的生成

计算好权重之后,就要最后确定文档的主题词。我们可根据用户的要求,如主题词的数目,占全文的比例等,选取那些权重最大的候选词作为文档的主题词。


为了满足彻底性的要求,即主题词必须尽可能多地覆盖文档的内容,我们还需对主题词的分配加上别的限制,如要求主题词按文档的意段分配,按文档的主题分配(需事先进行主题分析)。


责任编辑:admin




上一篇:信息检索技术简介
下一篇:从手工索引到自动索引

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们