- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
信息检索(Information Retrieval,IR)泛指用户从包含各种信息的文档集中查找所需要的信息或知识的过程。随着当今社会各领域的迅猛发展,信息以爆炸的方式不断增长,而且种类相当繁杂,除了文本、数字以外,还常常包括图形、位图象、声音、动态图象等多媒体文档。这里仅简述文本信息的检索,并把信息检索的任务看作“是在给定用户的信息需求后,从文档集中识别出最为匹配的文档”。其过程及组成部分如图1所示。
图中的模型主要包括:
● 文档模型 即文档的索引,也就是文档内容的识别和表示,包括语义内容和上下文属性(如作者、编辑者等)。
● 查询模型 即用户需求信息的获取与表示。
● 匹配函数 即在文档表示和查询表示的基础上,定义查询和文档的相关程度函数。
● 性能评价 一般采用精度(Precision)和检索率(Recall)对检出的文本进行评价,处理速度有时也用于评价系统的效率。
● 反馈修正过程 根据检出的结果对查询表示(少数情况下也对文档表示)进行扩充与参数优化,以提高系统性能。
图1 IR的一般模型及检索过程
任何一个信息检索模型都有其理论基础和一组假设,在下面的讨论中大家将会看到。检索模型的一些普遍性的假设有:
● 被检索对象主要为文档对象。
● 对象的检索与其他对象是否被检出无关,具有独立性(按类别检索时显然是不合适的)。
● 检索是根据文档内容的表示及所需信息的表示进行的。
● 文档内容和所需信息的表示都是非精确的。
60年代中期以来,人们提出了大量检索模型。自最初的为一些较小的和较为结构化的文档所设计的特殊模型(如文献记录,包括题目、作者和主题码等),发展到现在具有较强理论基础和能处理多种文档格式的模型。当前的模型能够处理具有复杂内部结构的文档,并且一般都具有学习和利用相关反馈进行查询优化等功能,使得系统性能大大提高。
当前应用中最主要的三个模型是:①严格匹配模型。它是许多商业信息检索系统的理论基础。②概率模型。把检索看作是文档表示和查询之间匹配程度的概率估计问题。③向量空间模型。把文档和查询看作是多维向量空间中的向量,用距离作为相似度的度量。实验表明后两种模型的许多性能优于严格匹配模型,但应用到商业产品上只是近几年的事情。
不同的模型有不同的理论基础和性能特性,在检索效率和计算复杂性上也有所区别,但所有的模型都要计算相似性。本章中我们在简要介绍严格匹配模型的基础上着重介绍概率模型和向量空间模型。其中概率模型偏重于理论,较为概括;向量空间模型偏重于应用,并结合了我们在开发全文检索、摘要系统中的一些心得体会。
责任编辑:admin