会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

信息检索的其他任务

发布时间: 2022-08-26 09:20:19   作者:etogether.net   来源: 网络   浏览次数:
摘要: 特定检索并不是信息检索中惟一的基于单词的任务,其他一些重要任务包括文档分类、文档聚类、文本分段和文本摘要等。


正如早先所指出的,特定检索并不是信息检索中惟一的基于单词的任务。其他一些重要任务包括文档分类、文档聚类、文本分段和文本摘要等。


文档分类(document categorization)任务是指把新文档指派给一个预先设定的文档类别的处理。在这个任务中,关键是找出属于某个类别的文档的有用特征,以生成分类器。尽管这可以通过手工来完成,但标准方法是采用监督机器学习方法,特别是可以通过已标注正确类别的文档集的训练来获取分类器。而词义排歧的监督学习方法也可以用于该任务。当分类的目的是把一个文档传送给一个用户或一组兴趣相同的用户时,通常把它称为分发(routing)。术语“过滤”(filtering)用于一种特殊的情形,其中分类任务是指接收或拒绝一个文档,比如用于屏蔽垃圾邮件的电子邮件过滤器。


分类任务假定已有一个现有文档分类体系或聚类体系。相反地,文档聚类的任务就是为给定的文档集生成或找到一个合理的聚类体系。与词义排歧的情形相同,一个合理的聚类被定义为能够使类内文档具有最大相似性,而类间文档具有最小相似性的分类体系。在特定检索背景下采用该技术的两个主要动机是:效率和聚类假设。


效率动机源于当前文档集里巨大的文档数。而检索方法需要每个文档与文档集里的每个文档进行对比。如果一个文档集可以被分为N个概念一致的聚类,则查询条件首先与这N个聚类的表示进行对比,然后只对排列在最前面的一个或几个聚类采用传统的检索,这样就大大节省了与所有距离较远的聚类进行比较而带来的耗费。


聚类假设 (cluster hypothesis) (Jardine and van Rijsbergen,1971) 进一步强化了这个论点,宣称从一个聚类后的文档集进行检索不但会提高检索效率,而且会改善整体的检索性能,即提高召回率和精度。该假设背后的基本概念是根据主题划分文档,相关文档会在同一聚类中被发现,并且由于无关文档位于那些不参与检索的聚类中,从而避免了无关文档。尽管这个假设似乎很合理,但它并不被所有实验结果所支持。实验结果随所采用的聚类算法和文档集的不同而有很大不同(Willett,1988; Shaw et al., 1996)。


聚类方法的另外一个有前景的应用是对响应用户查询条件而返回的文档,而不是整个文档集进行聚类。Hearst and Pedersen(1996)证实该技术提供了聚类假设所承诺的许多优点。


在文本分段(text segmentation)中,较长的文档被自动分成语义上一致的较短的语段(chunk)。这对于拥有大量的具有各种主题的长文档的领域非常有用。文本分段既可以用于低于文档层的检索,也可以直观地指导用户查看返回文档的相关部分。对较长文档中的子部分,分段算法常常采用类似向量的表示。一个文档的具有相似余弦值的相邻子部分比具有较大差别的余弦值的相邻子部分更有可能是关于相同的主题的。大致地说,这种相邻文档片断之间的相似性的不连续性可以用于将较长的文档分成子部分(Salton et al.,1993; Hearst, 1997)。


文本摘要 (text summarization) (Sparck Jones,1997)是指生成一个原始文档的简短且概要的版本的处理。该问题通常有两种处理方法。在基于知识(knowledge-based)的方法中,首先对原始文档进行语义分析,以生成该文本意义的表示,然后把该表示传给文本生成器,以生成能够表达原文的要点并满足长度限制的概要文本。在基于选择的摘要(selection-based summarization)中,首先根据非常简单的词频和话语结构启发式信息对所有句子指派代表句子重要程度的权重值,然后通过确定阈值来生成摘要文档,权重值高于该阈值的所有句子的长度信息相加应该满足规定的摘要长度。


责任编辑:admin


微信公众号

  • 上一篇:句中所指的判定
  • 下一篇:改进用户的查询条件


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)