返回

机翻技术

搜索 导航
超值满减
标注算法的一个具体例子
2022-12-24 10:06:49    etogether.net    网络    


对于实际标注过程而言,可能会遇到一些长句子,特别是一些“现代派”的小说,甚至会出现5~6页长的一些句子,习惯上称之为“一逗到底”。这些句子中间也存在一些逗号作为停顿,但只有一个句子终结性标点作为句子终结。这些句子在真实文本中是非常稀少的,但却对一个自动标注器的数据存储区提出了挑战。它们往往需要多于通常句子的几倍甚至上百倍的存储容量。对此类句子我们在复旦自动文摘系统中采用了一个简单的办法进行处理:人为地设定一个足够大的长度如100个词,作为实际句子的最大长度。若遇到一个长度超过此长度的句子,则判断该句的前100个词中是否存在标点符号,若存在则在距离最大长度最近的一个标点处将句子截断;若前100个词中不存在标点,则在第100个词处插入一个虚拟的逗号作为句子终结,强行截断句子。


标注过程中会遇到词典中不存在的词汇,这些未登录词汇有时我们又称之为“新词”,有新词出现的句子也不满足提到的模型的两个基本假设。为此,一些传统的标注算法简单地认为,这些新词可以以同样的概率观察到所有的标记类别。考虑到汉语文本的特殊性,这个假设显得太粗糙了,我们注意到对现代汉语,一个中等规模的词典完全可以包括几乎所有的介词和助词等词性类的词,而大部分人名、地名词典中不会有记载,即使另外单独作一个人名、地名词典,也不可能解决不断出现的新的人名和地名这个问题,新词中形容词和动词出现的可能也比较大。概念标注中同样也存在这个问题。为此我们采用两个预处理手段来解决这个问题。


其一,引入规则,包括构词词法规则和人名、地名判断规则。在汉语中各类数词、量词有着比较明确的构词方法,可以通过一些简单的规则进行判断,即使不能确定新词是属于哪一个具体的小类,但至少可以将可能的标记数量大为降低,并能根据统计数据确定新词的各个可能的小类类别的观察概率。这种方法同样可以处理时间词等一些有固定构词法的词类,并可得到一系列比较合理的标记的观察概率。


其二,对于上述方法处理不了的词类建造一个经验性质的新词默认标记表。该词表确定了一个新词所有可能的标记类别,及相应的观察概率。


事实上这些新词处理规则和新词默认标记表完全可以看作是词典的一个有机组成部分。从包含了新词处理规则和新词默认标记表的广义的词典中我们可以得到任何一个词的可能的标记集及其观察概率。


3. 词典的管理

为了减少处理的复杂性和存储容量以及查询速度等问题,词典可以采用如下方式组织:

词汇名称x      词性编码1        概念编码1       词性频率1       概念频率1

词汇名称x      词性编码2        概念编码2       词性频率2       概念频率2

词汇名称x      词性编码3        概念编码3       词性频率3       概念频率3

    ...                   ...                   ...                   ...                   ...

词汇名称x      词性编码y        概念编码y       词性频率y        概念频率y


一般说来,一个词汇的可能的词性编码和可能的概念编码个数可能不等,这时词典的词条以个数多的为准,不足的填上一个特定的标志如“*”作为空编码标志,词典查询时,空编码不作为查询结果返回。


这种词典组织结构使得一次词典查询可以同时得到一个词的所有可能的词性标记和概念标记,这样只须一次扫描就可以同时对文本的词性和概念进行标注,大大提高了标注的效率。当然,这样的组织方式只能对一个级别的词性或概念进行标注,若要对其他级别的词性或概念进行标注,必须更换词典。


一个未经任何训练的词典我们称之为空词典,空词典中不含有任何有效的词性频率或概念频率。


为了在语料增加时不对原有的语料重新从空词典开始训练,同时保留原始的统计数据,实际使用的词典可以分为两种模式:绝对模式和相对模式。在绝对模式下,词典中存放在训练语料中直接统计出的不作任何人工修饰的相应的频数,在相对模式下,存储经过概率估计后得到的概率的对数值。这样在Viterbi标注过程中无需重新进行计算,算法的运行速度可以得到有效的提高。




[上一页][1] [2] [3] [下一页] 【欢迎大家踊跃评论】

上一篇:句子的几种数据结构表示
下一篇:可用性与系统开发

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们