会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

从手工索引到自动索引

发布时间: 2023-01-18 09:37:57   作者:etogether.net   来源: 网络   浏览次数:
摘要: 数组下标可以看作是数组的索引,通过它能够存取指定的数组元素,文件目录是磁盘文件的索引,通过它读写磁盘上的文件块,数据库...


索引是快速存取信息的方式。索引的具体形式和所要存取的信息内容是紧密相关的。例如,数组下标可以看作是数组的索引,通过它能够存取指定的数组元素;文件目录是磁盘文件的索引,通过它读写磁盘上的文件块;数据库文件也往往建立关键字索引,以加快数据库记录的存取。


在信息管理领域,索引的意义也基本上是相似的。许多专业书籍在书后都附有名词索引表来列出书中的关键词,有的还附有文献索引表,以列出书中引用的文献及作者。书籍的目录也可看作是书籍的一种索引表,它列出了章节的名称、数目和起始页号。


在图书馆学里,索引有着更广泛的含义。为了能够更方便地收藏、检索书籍和期刊,必须记录下它们的一些特征。这些特征统称为索引,包括分类号、书名、文献名、作者、出版单位、出版时间、主题,等等。其中,主题索引是最有意义的,它用少量的主题词来表征书刊的主要内容。特别地,对于期刊上的文章和技术报告来说,由于它们有着相对集中的主题,更便于用少数的主题词来反映中心论题。但它也是最复杂的,因为其他索引只需标题、作者等结构化的、较易获得的信息,而主题索引必须了解书中的全部内容。


事实上,索引是最早出现的信息管理技术。在50年代,随着科学技术的发展,文档的大量增加,索引工作引起了科学界的广泛重视。从那时起一直到60年代,索引都是信息管理的首要任务,直到60年代后它的首要地位被信息检索所取代为止。虽然如此,这以后索引仍然还是一项重要的信息管理技术,不断地有索引系统问世。最近出现的如美国ORACLE公司的CONTEXT系统。该系统能根据用户的需求,如主题词数量、比例、显示方式等,检索出给定文本的主题词。


早期的索引工作是由专家来手工进行的。直到今天,手工索引仍然还是索引方式之一。为此出现了许多辅助性工具,以帮助索引工作人员来控制索引进程。这些辅助工具包括术语表、指令手册、分类词典。


随着文档的大量涌现,文档的内容包罗万象,同时又缺乏大量训练有素的专家,手工索引越来越不能满足索引工作的需要,于是,自动索引技术应运而生。所谓自动索引,就是自动地从文档中抽取主题词。


通过主题词的抽取,能达到以下三个密切相关的目的:


(1)表示文档的内容,便于用户通过主题词来查找文档中感兴趣的部分。

(2)通过主题词之间的联系来反映文档各主题之间的联系。

(3)根据主题词与用户信息需求之间的相似程度,判断文档是否满足用户的检索需要。


这些目的决定了衡量索引系统性能的两个主要指标,即彻底性(Exhaustivity)和专门性(Specifity)。彻底性指的是文本所讨论的主要内容被主题词覆盖的程度。专门性指的是抽取出来的主题词必须能反映文本的具体内容,而不能是泛泛而谈。


责任编辑:admin


微信公众号

  • 上一篇:自动索引的过程
  • 下一篇:基于语言学知识的分析方法


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)