会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

自然语言歧义的消除

发布时间: 2022-12-22 09:22:16   作者:etogether.net   来源: 网络   浏览次数:
摘要: 虽然自然语言中词的词类歧义是普遍存在的,但在人们的日常生活中通常并不会发生理解上的偏差,这是因为自然语言有其消除歧义的...


对于只能属于一个固定词类的词,标注过程只是简单地将该词标上相应的词类即可,而对于有多个可能的标记的词,即可以属于不同词类的词,所有这些不同的标记,组成了该词标注过程中的歧义。如何在众多的词类歧义中选择一个正确的标记就是标注过程要解决的问题。虽然自然语言中词的词类歧义是普遍存在的,但在人们的日常生活中通常并不会发生理解上的偏差,这是因为自然语言有其消除歧义的方法,这就是充分利用语言环境中的上下文信息及人们的经验。主要有三个因素对消除歧义是有帮助的,即:上下文,语境、歧义间的统计差异和文本的领域特征。


文本解释很大程度上来源于词的上下文信息内容,在某个特定词的前面出现的若干个词对理解该词起关键性的作用,句子中其他的词可以认为对该词影响较小,可以忽略其作用。对文本中各个孤立词的上下文分析可以消除或缩小歧义。同样歧义的消除还要依赖于与具体上下文无关的一些信息,如词的有歧义的各个标记在大量统计数据下出现的概率等。在不考虑上下文信息的情况下将词标上最大出现概率的标记要比标上其他标记在统计性能上要好一些。一个基于统计模型的标注算法,不仅要考虑词的上下文信息,还要考虑词的各个可能标记的出现概率。词的标记的统计数据在不同的领域中有着不小的差异,如词“树”在日常生活中绝大多数情况下是指植物的一种,与“榆树”、“槐树”等词近义,其他可能的概念就很少见,而在计算机领域中,这个概念通常是指一种抽象的数据结构,只是说其拓扑结构与树相似,与“榆树”、“槐树”等并无太大的直接联系,而与“队列”、“堆栈”等近义。在已知领域的情况下,领域因素往往对消除歧义有不可忽视的作用。


无论对于何种标记体系(词性/概念)都应当满足以下两个要求作为自动标注模型的基本假设:

(1) 对于任何一个给定的词,只有有限个可能的标记可选,即总的词类要确定,这些可选的标记应当能够事先得到。

(2) 当一个词有多个标记时,正确的标记可以根据局部上下文(如该词的前一个或两个词的正确标记)确定下来,即只有一个标记被认为在该语言环境下是正确的。


这些假设有如下优点:

(1)这种近似是可以接受的。词性标记能很好地满足上述要求,概念标记有些特殊,在有些语言环境下一个词可能不止有一个正确概念,并不能唯一确定,但我们可以认为在这种情况下只有一个概念是最有说服力的,并且有歧义的概念通常都属于同一个大的概念类,在一个面向概念统计分析的语言系统中,在这些属于同一大类的被认为是正确的标记中任选一个,并不会对分析结果产生过大的影响。在这个假设下,概念标记也能满足上述两个要求。

(2)提供了一个有力的理论框架,为排除歧义提供了一个直接手段。

(3)所需的模型参数可以从已知数据中估计出来,即可以通过训练得到。


定义了一个标记集之后,考查一个句子W=w1,…,wn和对应的一个标记序列Tj=t1,…,tn其中W和Tj等长度,我们称(W,Tj)二元组为一个组合,在该组合中每个和wi(1≤i≤n)一 一对应,是词wi的所有可能的标记中的一个。由于标记具有特定的语言学意义,因而在一个给定的W的所有组合中有且只有一个语法学上正确的Tw∈{T(W,T)}与之相对应。


标注过程就是对每一个句子W,在与之对应的各个T中选择出正确的标记序列Tw,即:

v.W→T=v(WV)。


对文本中每个词确定对应的正确标记,增加了词的信息量,从而有助于更好地对词进行理解。作为语法分析的前处理和为语义分析提供依据是标注过程的两个主要作用。词性标注确定了一个句子的准确词性序列可以作为语法分析的前处理,概念标注确定了句子中各个词的正确概念,这正好可以作为以向量空间模型为背景的语义分析的基础。以前的英语的词性标注工作表明,基于统计方法的词性标注不仅能够准确地确定词的词性,而且其精度也比用语法分析的副产品的确定词性的精度来得更高,在处理汉语文本时也有同样的结论。将标注作为语法分析的预处理过程,使得语法分析时的搜索空间大为减小,从数量级上缩小了语法分析的时间,消除了运算时间问题这个语法分析的瓶颈,为语法分析在大规模真实文本的处理中的应用铺平了道路。

有两个标准可以衡量标注过程的性能,即:


(1)句子级: 图1.png正确标注的句子数/总句子数×100%。



(2)词级:图2.png正确标注的词数/总词数×100%。


实际上,一个标注过程的句子级的性能通常比词级的性能差一些,通常我们所指的标注性能在不加说明的情况下都是指词级的性能。



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
  • 上一篇:使用Python进行文本分类
  • 下一篇:中文姓名的自动辨识


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)