- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
此文,我们将以复旦自动文摘系统中的自动标注子系统为例,详细剖析一个具体的标注算法。复旦自动文摘系统是一个与领域无关的自动文摘系统,其标注子系统也与领域无关,因而系统只有一个核心词典,而没有使用领域词典,事实上可以很方便地加入若干领域词典,在人工指定领域的情况下,将之改造为一个与领域相关的系统。
1. 词类分类标准
为了在适应分类粗细不同的标注需要的同时能够充分利用人工标注的熟语料,分类标准采用了分级方式。熟语料在分类最细的层次上人工标注,在具体的分类层次的模型训练时转换成相应分类级别的熟语料。
为此,词性分类可采用以《实用现代汉语语法》中的分法:名词、动词、形容词、代词、副词、连词、数词、量词、助词、介词、象声词、叹词12种,为主要依据的大类分类标准,另外参考其他分类标准增加了新的一个词类:语气词。
概念标记分类以《同义词词林》的概念分类作为标准,分为一级12大类,二级94小类,三级1428类,四级3925类。
无论词性分类还是概念分类,我们都采用树状分类体系,一个指定的低层次的类别只有一个唯一的高层次类别与之对应。人工标注的训练语料在低层次,即小类上进行,自动标注可以对大类或小类作标注,对于概念标注,最大标注只对第一、二级概念作标注。
标点集分类:考虑到汉语标点的复杂性和语法作用很重要等特点,我们将38个标点(区分半角标点和全角标点)划为两部分共19类,标点的半角全角变形划为同一类:
标点集={句号、逗号、顿号、波浪号、左单引号、右单引号、左双引号、右双引号、左书名号、右书名号、左括号、右括号、反斜杠、感叹号、问号、冒号、分号、破折号、省略号}共19类,其中左右括号概括了实际文本中的括号的多种变体,书名号也概括了实际文本中书名号的多种变体。
非句子终结性标点集={逗号、顿号、波浪号、左单引号、右单引号、左双引号、右双引号、左书名号、右书名号、左括号、右括号、反斜杠、破折号}共13类,不可以作为一个句子的终结符,只表示句子中间的一个停顿。
句子终结性标点集={句号、感叹号、问号、冒号、分号、省略号}共6类,可以作为一个句子的终结符,中止一个合法的句子。
将19类标点和13大类词性或38小类词性合并得到了一级词性标注的32类标记或二级词性标注的57类标记;将标点与12类概念层次或94类概念层次合并就可得到一级概念标注的31类标记或二级概念标注的113类标记。为了实际模型的需要,须另外增加一个虚拟的词汇:句子起始符,其标记可记为S0。
2. 模型选择
考虑到训练语料的数量以及语法分析和语义分析的需要,模型采用如图1 所示的两步转移模型,并采用Viterbi标注算法进行标注。
图1 词性或概念标注的HMM结构示意图
其中S0为句子起始符的标记,SN为一个可以终结句子的句子终结性标点的标记。常见的句子都能满足这个模型,但对于文章的标题等特殊的可以与正文通过排版信息相区别的特殊句子可以不以标点作为句子终结。这时在这类句子的最后一个词汇后增加一个虚拟的句号进行标注,标注完毕之后删除该虚拟的句号及其标注上的类别。这样所有真实文本中的句子就都可以适应此模型了。