会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

复旦分词系统介绍

发布时间: 2022-12-18 10:04:28   作者:etogether.net   来源: 网络   浏览次数:


3. 歧义字段的发现

最简单的识别歧义字段的方法是穷举法,即找出输入字串从每个汉字开始的所有可能的词。由于穷举法时间复杂度较大,不够实用,一般采用双向扫描的方法来发现歧义字段。所谓双向扫描,就是对同一字段,分别用正向匹配和逆向匹配方法切分文本。两种方法得到的结果相同,则认为切分正确,否则就判别为歧义字段。以歧义句“他的确切地址”为例:


正向匹配结果:“他的确切地址”:逆向匹配结果:“他的确切地址”。由此可以发现交集歧义字段“的确切”。


具体地,采用正向最小匹配和逆向最大匹配,并且最小匹配从单字词开始。这样不仅能识别交集歧义字段,还能识别多义组合字段。以歧义句“他将来的工作”为例:

逆向最大匹配结果:“他  将来  的  工作”;正向最小匹配结果:“他  将  来  的  工作”。由此可以发现多义组合字段“将来”。


4. 歧义字段的处理

我们采用规则知识和统计信息相结合的方法来处理歧义字段,首先使用分词规则,在规则使用无效的情况下再使用统计信息。


分词规则又由构词规则和排歧规则组成,其中构词规则根据构词法自动生成部分未在词典中登录,但由《分词规范》所确认的分词单位,包括:


(1)前缀词素构词规则:只出现在词的第一位置,与词根词素(即具有词汇意义的语素)构成词的附加素称为前缀词素。前缀词素包括“阿”、“第”、“初”、“可”等,其中的“第”、“初”已在预处理阶段进行了处理。


(2)后缀词素构词规则:只出现在词的最后位置,与词根词素构成词的附加素称为后缀词素。后缀词素包括“们”、“员”、“家”等。但是前、后缀词素要构词还必须满足一定的语义限制。例如,“员”既可做为后缀词素,又可做为量词。因此,只有在它前面的词不是数词的情况下,才运用构词规则。

(3)重叠字构词规则:其中重叠字可分为以下几类:


AA式重叠字——家家、人人;

AABB式重叠字——冷冷清清、家家户户、花花绿绿;

ABB式重叠字——黑洞洞、凉津津;

ABAB式重叠字——高兴高兴、辛苦辛苦;

AAB式重叠字——摇摇头。


在发生歧义现象的情况下,将根据排歧规则选择一种切分方式。由于上文所介绍的原因,我们不采用就某一特定的歧义字段而确立的专用规则,仅采用通用规则来处理歧义现象。在通用规则无效的情况下,再调用统计信息。所使用的通用规则包括以下几条:


(1)成词切分优先:两种切分结果,一种全部由词汇组成,而另一种含有孤立字,则选择前一种切分结果。根据这条规则,歧义句“昨天下课后”将被切成“昨天  下课  后”,而非“昨  天下  课后”,因为“昨”不是单字词。

(2)单字方位词不组词:歧义句“他伏下身子”将被切成“他  伏  下  身子”,而非“他  伏  下身  子”。

(3)量词优先:歧义句“来了三个人”将被切成“来  了  三  个  人”,而非“来  了  三  个人”。

(4)单字动词尽可能单独切分:歧义句“不会用心机”将被切分成“不会  用  心机”,而非“不会  用心  机”。

(5)链长为2的交集字段自然成词:歧义句“当天下午”将被切成“当天  下午”,而非“当  天下  午”。


不同的规则应用于相同的歧义字段时,可能会产生不同的结果。因此,在应用规则时,必须严格按照规则次序加以调用。

在规则使用无效的情况下,使用了统计信息,主要是词频信息。在训练语料库时,是按词的不同词义计算频率的,因为一个汉语单词可能有几个词性,每个词性又可能有几个词义,知道了词的词义频率,也就同时知道了词频和词的词性频率。


因此,可用以下三种方式使用统计信息以消除歧义:


(1)简单词频信息。用C=c1c2…cm表示输入的由m个汉字组成的歧义切分字段;W=w1w2…wn表示把C切分后得到的由n个词组成的词串,V=v1v2…vm是另一种切分结果。用frq(w)表示词w的频率。如果有:图2.png,则选择切分结果W。例如:字段“太平淡”有两种切分结果,“太  平淡”和“太平  淡”。根据frq(“太”)×frq(“平淡”)>frq(“太平”)×frq(“淡”),将选取切分结果“太  平淡”。


单纯使用词频信息,没有考虑到词性和词义信息,更没有考虑到不同词性和词义之间的概率转移关系,错误率较高。对于频率较低的词将永远不能正确切分。例如:“他的确切菜了”将切分为:“他  的  确切  菜  了”。因此,更好的方法是通过标注来解决分词歧义。而标注方法又可分为词性标注和概念标注两种。


(2)词性标注。用词性标注方法分别计算两种切词路径的最大概率值,从中选取概率值较大的词串作为切分结果。


(3)概念标注。用概念标注方法分别计算两种切词路径的最大概率值,从中选取概率值较大的词串作为切分结果。


责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:中文姓名的自动辨识
  • 下一篇:切分歧义处理知识


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)