- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
近年来出现了许多各种各样的自然语言分析工具,除了基于语料库研究的方法正方兴未艾,利用语言学知识的分析方法也很重要,大家最容易想到的就是句法分析。句法分析实际上就是对文档进行句法标注。利用句法分析的结果可以构造词组,这将使文档表示的内容更精确。
但是仅仅利用语法的方法并不能解决自然语言中的许多歧义问题。也就是说,句法分析的准确性目前为止并不能令人满意。因此对构造词组来说,正确表示文档内容的词组可能不会被构造出来,而不是词组的词也可能被拼在一起作为词组。
由于纯语言方法内在的不确定性,人们利用词典增加了语义规则,提供单词的语义用法。现在人们所建造的一般都是领域词典,反映领域内的词汇之间的语义关系。这对分析本领域内的文档具有一定作用。但是,将机读词典应用在实际的检索系统中并不是容易事情,原因有两点:①对一个文档集检索性能较好的词典对别的文档集并不一定好,即词典一般都受限在一个较小的领域;②因为词典中每个条目都有许多信息,条目间的关系也错综复杂,使得从词典中抽取有用的可靠的信息也较困难,而且词典中条目的各种信息及其相互关系的定义也难以评价和维护。
近年来在人工智能领域,知识库技术越来越受到人们的重视。将之应用于文档分析应当说是顺理成章的事情。知识库实际就是某一领域专业知识的结构化表示。知识表示的方法目前有许多种:包括语义网络、框架、剧本、谓词逻辑和产生式系统等。其中语义网络应用得较为广泛。从本质上来讲,语义网络是知识的图解表示。它由节点和弧或链(带有箭头的弧线)组成。节点可用来表示物体、概念和情况,而弧表示它们之间的关系。图1是一个语义网络的例子。它描述了心血管系统的一些基本概念以及某些概念之间的关系,从图中可以看到心脏的状况受血压状况的影响,心脏病是心血管疾病的一种。
图1 语义网络举例(心血管系统)
在信息检索中,知识库中概念网络的“游历”一般是通过推理规则来实现的。一个典型的规则是:如果发现概念A,并且A与概念B通过一定的关系在概念网络中联系,那么另一个概念C就是合理的。这个推理过程可以是非确定性的。
尽管人们应用这些方法取得了一定的效果,但是应当看到,知识表示的完全性理论并不存在。对一个具体的应用来说,知识库中每一个条目与其他条目之间的哪种关系应该考虑并不是很清楚。人们曾经试图建立一个非常大的非受限的知识库,但是这样的知识库能否应用于非受限的文档集目前还没有证明。
责任编辑:admin