- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
3. 歧义字段的发现
最简单的识别歧义字段的方法是穷举法,即找出输入字串从每个汉字开始的所有可能的词。由于穷举法时间复杂度较大,不够实用,一般采用双向扫描的方法来发现歧义字段。所谓双向扫描,就是对同一字段,分别用正向匹配和逆向匹配方法切分文本。两种方法得到的结果相同,则认为切分正确,否则就判别为歧义字段。以歧义句“他的确切地址”为例:
正向匹配结果:“他的确切地址”:逆向匹配结果:“他的确切地址”。由此可以发现交集歧义字段“的确切”。
具体地,采用正向最小匹配和逆向最大匹配,并且最小匹配从单字词开始。这样不仅能识别交集歧义字段,还能识别多义组合字段。以歧义句“他将来的工作”为例:
逆向最大匹配结果:“他 将来 的 工作”;正向最小匹配结果:“他 将 来 的 工作”。由此可以发现多义组合字段“将来”。
4. 歧义字段的处理
我们采用规则知识和统计信息相结合的方法来处理歧义字段,首先使用分词规则,在规则使用无效的情况下再使用统计信息。
分词规则又由构词规则和排歧规则组成,其中构词规则根据构词法自动生成部分未在词典中登录,但由《分词规范》所确认的分词单位,包括:
(1)前缀词素构词规则:只出现在词的第一位置,与词根词素(即具有词汇意义的语素)构成词的附加素称为前缀词素。前缀词素包括“阿”、“第”、“初”、“可”等,其中的“第”、“初”已在预处理阶段进行了处理。
(2)后缀词素构词规则:只出现在词的最后位置,与词根词素构成词的附加素称为后缀词素。后缀词素包括“们”、“员”、“家”等。但是前、后缀词素要构词还必须满足一定的语义限制。例如,“员”既可做为后缀词素,又可做为量词。因此,只有在它前面的词不是数词的情况下,才运用构词规则。
(3)重叠字构词规则:其中重叠字可分为以下几类:
AA式重叠字——家家、人人;
AABB式重叠字——冷冷清清、家家户户、花花绿绿;
ABB式重叠字——黑洞洞、凉津津;
ABAB式重叠字——高兴高兴、辛苦辛苦;
AAB式重叠字——摇摇头。
在发生歧义现象的情况下,将根据排歧规则选择一种切分方式。由于上文所介绍的原因,我们不采用就某一特定的歧义字段而确立的专用规则,仅采用通用规则来处理歧义现象。在通用规则无效的情况下,再调用统计信息。所使用的通用规则包括以下几条:
(1)成词切分优先:两种切分结果,一种全部由词汇组成,而另一种含有孤立字,则选择前一种切分结果。根据这条规则,歧义句“昨天下课后”将被切成“昨天 下课 后”,而非“昨 天下 课后”,因为“昨”不是单字词。
(2)单字方位词不组词:歧义句“他伏下身子”将被切成“他 伏 下 身子”,而非“他 伏 下身 子”。
(3)量词优先:歧义句“来了三个人”将被切成“来 了 三 个 人”,而非“来 了 三 个人”。
(4)单字动词尽可能单独切分:歧义句“不会用心机”将被切分成“不会 用 心机”,而非“不会 用心 机”。
(5)链长为2的交集字段自然成词:歧义句“当天下午”将被切成“当天 下午”,而非“当 天下 午”。
不同的规则应用于相同的歧义字段时,可能会产生不同的结果。因此,在应用规则时,必须严格按照规则次序加以调用。
在规则使用无效的情况下,使用了统计信息,主要是词频信息。在训练语料库时,是按词的不同词义计算频率的,因为一个汉语单词可能有几个词性,每个词性又可能有几个词义,知道了词的词义频率,也就同时知道了词频和词的词性频率。
因此,可用以下三种方式使用统计信息以消除歧义:
(1)简单词频信息。用C=c1c2…cm表示输入的由m个汉字组成的歧义切分字段;W=w1w2…wn表示把C切分后得到的由n个词组成的词串,V=v1v2…vm是另一种切分结果。用frq(w)表示词w的频率。如果有:,则选择切分结果W。例如:字段“太平淡”有两种切分结果,“太 平淡”和“太平 淡”。根据frq(“太”)×frq(“平淡”)>frq(“太平”)×frq(“淡”),将选取切分结果“太 平淡”。
单纯使用词频信息,没有考虑到词性和词义信息,更没有考虑到不同词性和词义之间的概率转移关系,错误率较高。对于频率较低的词将永远不能正确切分。例如:“他的确切菜了”将切分为:“他 的 确切 菜 了”。因此,更好的方法是通过标注来解决分词歧义。而标注方法又可分为词性标注和概念标注两种。
(2)词性标注。用词性标注方法分别计算两种切词路径的最大概率值,从中选取概率值较大的词串作为切分结果。
(3)概念标注。用概念标注方法分别计算两种切词路径的最大概率值,从中选取概率值较大的词串作为切分结果。
责任编辑:admin