- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
索引是快速存取信息的方式。索引的具体形式和所要存取的信息内容是紧密相关的。例如,数组下标可以看作是数组的索引,通过它能够存取指定的数组元素;文件目录是磁盘文件的索引,通过它读写磁盘上的文件块;数据库文件也往往建立关键字索引,以加快数据库记录的存取。
在信息管理领域,索引的意义也基本上是相似的。许多专业书籍在书后都附有名词索引表来列出书中的关键词,有的还附有文献索引表,以列出书中引用的文献及作者。书籍的目录也可看作是书籍的一种索引表,它列出了章节的名称、数目和起始页号。
在图书馆学里,索引有着更广泛的含义。为了能够更方便地收藏、检索书籍和期刊,必须记录下它们的一些特征。这些特征统称为索引,包括分类号、书名、文献名、作者、出版单位、出版时间、主题,等等。其中,主题索引是最有意义的,它用少量的主题词来表征书刊的主要内容。特别地,对于期刊上的文章和技术报告来说,由于它们有着相对集中的主题,更便于用少数的主题词来反映中心论题。但它也是最复杂的,因为其他索引只需标题、作者等结构化的、较易获得的信息,而主题索引必须了解书中的全部内容。
事实上,索引是最早出现的信息管理技术。在50年代,随着科学技术的发展,文档的大量增加,索引工作引起了科学界的广泛重视。从那时起一直到60年代,索引都是信息管理的首要任务,直到60年代后它的首要地位被信息检索所取代为止。虽然如此,这以后索引仍然还是一项重要的信息管理技术,不断地有索引系统问世。最近出现的如美国ORACLE公司的CONTEXT系统。该系统能根据用户的需求,如主题词数量、比例、显示方式等,检索出给定文本的主题词。
早期的索引工作是由专家来手工进行的。直到今天,手工索引仍然还是索引方式之一。为此出现了许多辅助性工具,以帮助索引工作人员来控制索引进程。这些辅助工具包括术语表、指令手册、分类词典。
随着文档的大量涌现,文档的内容包罗万象,同时又缺乏大量训练有素的专家,手工索引越来越不能满足索引工作的需要,于是,自动索引技术应运而生。所谓自动索引,就是自动地从文档中抽取主题词。
通过主题词的抽取,能达到以下三个密切相关的目的:
(1)表示文档的内容,便于用户通过主题词来查找文档中感兴趣的部分。
(2)通过主题词之间的联系来反映文档各主题之间的联系。
(3)根据主题词与用户信息需求之间的相似程度,判断文档是否满足用户的检索需要。
这些目的决定了衡量索引系统性能的两个主要指标,即彻底性(Exhaustivity)和专门性(Specifity)。彻底性指的是文本所讨论的主要内容被主题词覆盖的程度。专门性指的是抽取出来的主题词必须能反映文本的具体内容,而不能是泛泛而谈。
责任编辑:admin