返回

机翻技术

搜索 导航
超值满减
标注算法的一个具体例子
2022-12-24 10:06:49    etogether.net    网络    


每次训练只对新增加的语料用绝对模式下的词典进行统计,然后通过一个指定的小概率估计方案,如减一估计或留一估计等将词典转换到相对模式。自动标注时只用到相对模式下的词典。两种模式的词典方便了不同的小概率估计算法的选择和改进。

对应地,概率转移矩阵也采用这种方式管理,不再另加说明。


4. 面向文本解释的标注

尽管概念的分类基本上是唯一的,即在一个特定的上下文环境中,一个词只有一个最正确的概念,但是实际文本中不少词汇的概念还是或多或少地存在一些模糊,即使是专家也会有些争议。如词“车站”在不同的场合下可能是指“建筑物”也可能是指“场所”,经过一番非常认真的分析,或许能够将它准确区分,但对于一个面向概念统计的文本解释模型,这个区分就太生硬了。在文本的理解时,语义的模糊性往往是允许存在的,事实上在人工标注语料时,不同的人对这类语义模糊的词的概念标注常常会有不同,相应地在自动标注时也确实很容易将这类词的概念标错。好在一般而言,一个特定词汇发生此类语义模糊的语义不会超过两个,而且在人们理解文本的过程中,这两个候选语义是有一个优先顺序的。


词性标注中,一旦一个句子的某个主要的词汇的词性被标注错误,在语法分析中将导致分析器不能完成一个句子。而不少时候它的次优的标记却往往是正确的。


基于以上的考虑,我们对一个句子标注的结果作了一些修改,不是仅仅保留一个最优解,而是同时保留最优解和一个次优解,即对一个待标注句子保留两个标记序列,并将两个标记序列的概率(或对数概率)之比作为其权重比,这种方法我们称之为双链标注。双链标注对于概念标注而言保留了概念的模糊性,对词性标注而言,使语法分析在主链失败时,不用对整个句子各个词的所有可能标记作分析,而提供了一个较好的有权重可以比较的次优标记序列用于选择,大大减少了语法分析的搜索时间。


5. 熟语料的增加

前面已经提到,人工标注的熟语料是很难得到的,为了能够更方便地得到熟语料,可以对一批没有标注信息的生语料用自动标注方法进行标注,然后人工进行修改,因为自动标注完全可以达到90%以上的正确率,所以对于绝大多数词汇而言,自动标注过程都能够标注正确,只有一小部分词汇标注错误,需要进行人工更正。这样可以将人工标注的劳动强度大为降低。人工更正后的语料又可以作为熟语料来训练标注器,标注器经过新的语料的训练,数据稀疏问题就会逐渐得到改善,精度也会提高。不过如果直接用未经更正的自动标注后的语料作为训练语料,试验表明,不但不能提高标注的精度,反而会使标注精度下降,这是不可取的。



责任编辑:admin



[上一页][1] [2] [3] 【欢迎大家踊跃评论】

上一篇:句子的几种数据结构表示
下一篇:可用性与系统开发

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们