- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
改善信息检索系统性能的最有效方法之一是寻找改进用户的查询条件的方法。在向量空间模型中,改善信息检索系统性能的最有效的单个方法是使用相关反馈(relevance feedback)(Rocchio,1971)。在该方法中,用户向系统提交一个查询条件,系统返回给用户少量的检索结果文档,然后要求用户指定哪些文档是满足其需求的。接着,根据用户指定的相关和不相关文档中的检索词的分布,重组用户原始的查询条件。将重组后的查询条件作为一个新的查询条件提交给系统,并给用户返回新的检索结果。通常该技术的第一次循环就能够对检索性能带来极大的改善。
该技术实现的形式化基础直接来自向量模型的一些基本的几何学的直觉。特别是,我们希望将表示用户原始查询条件的向量推(push)向已经被发现是相关的文档,并且推离已经被判断为无关的文档。这可以通过加入一个表示原始查询条件的相关文档的平均向量,并减去一个表示无关文档的平均向量来实现。
更形式化地,让我们假设表示用户的原始查询条件,R是从原始的查询条件返回的相关文档数,S是无关文档数,并且
和
分别表示在相关文档集和无关文档集里的文档。另外,假定β和Y的范围是从0到1,并且β+Y=1。已知这些假设,则可用下式表示一个标准的相关反馈的更新公式:
在该公式中,因子β和y表示的参数可以通过实验加以调整。从直觉上看,β表示新向量应该推向相关文档多远,而y表示应该推离无关文档多远。根据Salton and Buckley(1990)的报告,当β=0.75和Y=0.25时结果较好。
我们应该注意到,采用相关反馈的系统的评测相当复杂。特别是,由第一次重组后的查询条件所产生的结果常常会有很大改善。这并不令我们感到意外,因为在第一轮利用了用户告诉系统相关的文档。避免这种性能上的夸大的最好方法是只计算剩余文档集(residual collection)的精度和召回率,剩余文档集是指从原始文档集里去除任何一轮提交给用户判断的文档后剩余的文档集。通常这使得系统的原始性能低于第一次查询条件时所获得的性能,因为现在最相关的文档被去除了。然而,当比较不同的相关反馈机制时该技术就非常有效。
另一种可供选择的改进查询条件的方法着眼于组成查询条件向量的检索词,而不是查询条件向量本身。在查询扩展(query expansion)中,用户的原始查询条件被扩展,以包含与原始检索词相关的一些检索词。典型的实现方法是从文档集里与用户的原始检索词高度相关的词表中增加一些检索词。虽然这种高度相关的检索词的词表常常被称为同义词词典或类属词典(thesaurus),但它是基于相关性而不是同义关系的,它只是被不准确地与标准术语联系在一起。
遗憾的是,通常像类属词典这样的可利用资源对于大部分文档集都是不适合的。因此,需要借助类属词典生成(thesaurus generation)方法,从文档集的全部或部分文档中自动生成一个基于相关性的词典。采用检索词聚类(term clustering)是类属词典生成方法中最主流的方法之一。回顾前面提到的检索词乘文档的矩阵的特征:矩阵的列表示文档,矩阵的行表示检索词。因此,在词典生成中,矩阵的行可以被聚类以形成同义词集,然后这个同义词集被加入查询条件以提高系统的召回率。
通常该技术有两种实现方法:可以从文档集里一次性地生成一个类属词典(Crouch and Yang, 1992),或者从原始查询条件返回的文档集里动态生成一个类似同义词的检索词集(Attar and Fraenkel, 1977)。注意,第二种方法需要花费更多精力,因为实际上对每个查询条件返回的文档都要生成一个小的类属词典,而不是对整个文档集生成一个类属词典。
责任编辑:admin