- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
对于语法分析来说,句子级的衡量标准更有意义一些。在同样的词级性能评价下,错误的标注出现得越集中(如:很多错误发生在一个句子中),对语法分析的评价越有利,这是因为语法分析的性能是按句子来衡量的。但对于语义分析,其基本要求是更多的正确概念,词级的评价标准更好,因为经常标注错误的虚词类概念在语义分析中并不起多大作用,而虚词特别是一些小品词的歧义通常是最多和最难以确定的。这种情况下甚至可以仅仅用正确标注的实词比例来评价标注性能。
在标注问题的概率公式中,我们假设(W,T)组合可以通过一个关于概率分布p(W,T)的概率模型产生。在这种情况下,最优的标注过程根据不同的评价准则可以有如下两种。
(1)句子级评价,选择句子的最有可能性的标记序列。
这个过程我们称之为Viterbi标注,它可以通过使用一种动态规划策略实现。
(2)词级评价,对句子中的每个词选取最有可能的标记。
这里v(wi)是标注过程根据句子中的上下文信息赋于词wi的标记,这个过程我们称之为最大似然标注或ML标注。
尽管Viterbi标注在词级评价上不是最优的,但它却是最常用的一个标注算法,主要原因如下:
(1)Viterbi标注提供的最优状态序列(标记序列)能更好地描述句子,在语法上的解释很吸引人。
(2)最大似然标注可能产生一些语法上不可能出现的标记序列。
然而,根据实际标注结果的比较,可以发现,两者非常近似,差别并不明显。
真实文本条件下,在标注过程中一个词的概念的确定要比词性的确定需要更多的上下文,即:考虑同样多的上下文时,概念标注的结果要比词性标注差一些。但语义分析的具体要求一般不如语法分析严格,只需给出带来重大歧义的词的标记即可。
在考虑不同数量的上下文的情况下,我们可以建立如下的随机语言模型:
两步模型:
※当前考查的词wi的正确标记ti仅依赖于当前词的直接前趋词wi-1及其标记ti-1。
三步模型:
※当前考查的词wi的正确标记ti仅依赖于当前词的前趋词wi-1、wi-2及其标记ti-1、ti-2。
以上两个模型都是问题实际模型的一个近似,形式上看考虑更多的上下文因素的更复杂的模型可能会更接近实际模型,但是实际上考虑更多的上下文,意味着不仅需要更大的计算机存储容量和计算时间,而且模型中会出现更多的参数,以及为使这些参数得到充分的训练而要求更多的训练语料。对于任何一种标记分类标准而言,人工标注十几万词的训练语料已经不是一件轻松的事。若Nw表示词典的大小,Nr表示每个词最多的可能的标记个数,两步模型最多可能的参数个数约为:Nw×VT,三步模型最多可能的参数个数为:Nw×NT×NT。事实上对上述两个模型来说,对于94类的概念标注,即使是一个很小的三、四万词的词典,语料不充分的情况就已经十分严重,大量的(词汇、标记)对,(标记、标记、标记)对根本没有机会在一个只有十几万词的训练语料中出现。尽管引入的小概率估计方法可以使情况有所改善,但并不能从根本上解决问题,模型中大量未经训练的参数将导致模型的不稳定并直接影响标注效果,因而其实际效果并不一定总比两步模型要好。
责任编辑:admin