复旦分词系统介绍

发布时间： 2022-12-18 10:04:28 作者：etogether.net 来源：网络浏览次数：

3. 歧义字段的发现

最简单的识别歧义字段的方法是穷举法，即找出输入字串从每个汉字开始的所有可能的词。由于穷举法时间复杂度较大，不够实用，一般采用双向扫描的方法来发现歧义字段。所谓双向扫描，就是对同一字段，分别用正向匹配和逆向匹配方法切分文本。两种方法得到的结果相同，则认为切分正确，否则就判别为歧义字段。以歧义句“他的确切地址”为例：

正向匹配结果：“他的确切地址”：逆向匹配结果：“他的确切地址”。由此可以发现交集歧义字段“的确切”。

具体地，采用正向最小匹配和逆向最大匹配，并且最小匹配从单字词开始。这样不仅能识别交集歧义字段，还能识别多义组合字段。以歧义句“他将来的工作”为例：

逆向最大匹配结果：“他将来的工作”；正向最小匹配结果：“他将来的工作”。由此可以发现多义组合字段“将来”。

4. 歧义字段的处理

我们采用规则知识和统计信息相结合的方法来处理歧义字段，首先使用分词规则，在规则使用无效的情况下再使用统计信息。

分词规则又由构词规则和排歧规则组成，其中构词规则根据构词法自动生成部分未在词典中登录，但由《分词规范》所确认的分词单位，包括：

（1）前缀词素构词规则：只出现在词的第一位置，与词根词素（即具有词汇意义的语素）构成词的附加素称为前缀词素。前缀词素包括“阿”、“第”、“初”、“可”等，其中的“第”、“初”已在预处理阶段进行了处理。

（2）后缀词素构词规则：只出现在词的最后位置，与词根词素构成词的附加素称为后缀词素。后缀词素包括“们”、“员”、“家”等。但是前、后缀词素要构词还必须满足一定的语义限制。例如，“员”既可做为后缀词素，又可做为量词。因此，只有在它前面的词不是数词的情况下，才运用构词规则。

（3）重叠字构词规则：其中重叠字可分为以下几类：

AA式重叠字——家家、人人；

AABB式重叠字——冷冷清清、家家户户、花花绿绿；

ABB式重叠字——黑洞洞、凉津津；

ABAB式重叠字——高兴高兴、辛苦辛苦；

AAB式重叠字——摇摇头。

在发生歧义现象的情况下，将根据排歧规则选择一种切分方式。由于上文所介绍的原因，我们不采用就某一特定的歧义字段而确立的专用规则，仅采用通用规则来处理歧义现象。在通用规则无效的情况下，再调用统计信息。所使用的通用规则包括以下几条：

（1）成词切分优先：两种切分结果，一种全部由词汇组成，而另一种含有孤立字，则选择前一种切分结果。根据这条规则，歧义句“昨天下课后”将被切成“昨天下课后”，而非“昨天下课后”，因为“昨”不是单字词。

（2）单字方位词不组词：歧义句“他伏下身子”将被切成“他伏下身子”，而非“他伏下身子”。

（3）量词优先：歧义句“来了三个人”将被切成“来了三个人”，而非“来了三个人”。

（4）单字动词尽可能单独切分：歧义句“不会用心机”将被切分成“不会用心机”，而非“不会用心机”。

（5）链长为2的交集字段自然成词：歧义句“当天下午”将被切成“当天下午”，而非“当天下午”。

不同的规则应用于相同的歧义字段时，可能会产生不同的结果。因此，在应用规则时，必须严格按照规则次序加以调用。

在规则使用无效的情况下，使用了统计信息，主要是词频信息。在训练语料库时，是按词的不同词义计算频率的，因为一个汉语单词可能有几个词性，每个词性又可能有几个词义，知道了词的词义频率，也就同时知道了词频和词的词性频率。

因此，可用以下三种方式使用统计信息以消除歧义：

（1）简单词频信息。用C=c1c2…cm表示输入的由m个汉字组成的歧义切分字段；W=w1w2…wn表示把C切分后得到的由n个词组成的词串，V=v1v2…vm是另一种切分结果。用frq(w)表示词w的频率。如果有：图2.png ，则选择切分结果W。例如：字段“太平淡”有两种切分结果，“太平淡”和“太平淡”。根据frq（“太”)×frq（“平淡”)>frq（“太平”)×frq（“淡”)，将选取切分结果“太平淡”。

单纯使用词频信息，没有考虑到词性和词义信息，更没有考虑到不同词性和词义之间的概率转移关系，错误率较高。对于频率较低的词将永远不能正确切分。例如：“他的确切菜了”将切分为：“他的确切菜了”。因此，更好的方法是通过标注来解决分词歧义。而标注方法又可分为词性标注和概念标注两种。

（2）词性标注。用词性标注方法分别计算两种切词路径的最大概率值，从中选取概率值较大的词串作为切分结果。

（3）概念标注。用概念标注方法分别计算两种切词路径的最大概率值，从中选取概率值较大的词串作为切分结果。

责任编辑：admin

[上一页][1] [2] 【欢迎大家踊跃评论】

《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至18964029557@163.com，我们将及时沟通与处理。

复旦分词系统介绍

相关机器翻译技术文章

免费在线翻译

翻译机

外语书籍

行业文章

人工翻译