会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

复旦分词系统介绍

发布时间: 2022-12-18 10:04:28   作者:etogether.net   来源: 网络   浏览次数:
摘要: 中文虽然不像西文那样,词与词之间都有明显的切割标记,但借助一些特殊的标记,也能把输入文本转变为相对较短的汉字段。


我们在多年来从事基于大规模语料研究工作的基础上,建立了一整套中文处理体系,由自动分词、词性标注、词频和概念统计、句法和语义分析等子系统构成。其中分词系统作为基础的部分。下面将简要介绍一下复旦分词系统。


1. 系统结构

如图1 所示,分词系统由四个模块构成。输入的汉语文本,经过预处理阶段后,将首先利用分割标记分成较短的汉字串,同时还将根据预处理规则预先切分出数词和时间词;接着通过双向匹配方法识别出汉字段中的歧义字段;再运用歧义处理规则和词典中的统计信息来处理歧义字段;最后还有一个未登录词识别模块,用来识别文本中的人名、地名和领域专有词汇下文将介绍前三个模块。


图1.png

图1 复旦分词系统主框架


2. 预处理

中文虽然不像西文那样,词与词之间都有明显的切割标记,但借助一些特殊的标记,也能把输入文本转变为相对较短的汉字段。这些标记包括标点符号、数字、字母等非汉字字符,还包括真实文本中常出现的字体、字号等排版信息。

有些文献认为,部分只能做词首字和词尾字的汉字也可以作为切割标记。例如,“葡”可做为词首切割标记,见到文本中的“葡”字后,即可把输入文本在它之前断开;“蜓”可做为词尾切割标记,见到文本中的“蜓”字后,即可把输入文本在它之后断开。但是,经统计,发现绝大多数标记字都是低频字,而且一般也不构成歧义字段,故没有必要做特殊的处理,而频率较高的标记字,如“的”、“是”等,都是条件标记字,在某些情况下会引起歧义,在以后阶段处理会更合适一些。


除此之外,一些特殊短语,包括数词短语、时间短语、货币单位,因其结构相对较简单,往往由数词和特征字组成,也很适合在本阶段加以处理。


《分词规范》曾规定时间名词或词组的分词规则如下:

(1)一年的12个月份以及每周的7天,一律为分词单位。例如:

5月、元月、3月、星期日、礼拜三。

(2)“年、日、时、分、秒”分别为分词单位。例如:

1988年3月15日、11时42分8秒。


对于数词,《分词规范》规定基数词是分词单位,而序数词和分数必须切开。这些分词规则,主要是从语言学的观点来考虑的,但对中文信息的计算机处理造成了一定困难。首先,是概念上的混淆,为什么月份是分词单位,而其他时间单位就不是?其次,这样还造成了部分歧义现象。例如上文所举的歧义句“1月20日本报刊出了一条消息”,因为把数字与日期切分开,从而出现了歧义字段“日本报”。数词中的标点符号还可能引起句子边界的错误划分。在此后的理解过程中,还必须把切分开的时间词的片段等重新合成为一个语言成分。既然如此,更合适的办法是在分词阶段即对这些短语加以识别,并加上适当的标记,以便后续过程的处理。

以数字词为基础的各种短语有以下几个特点:

(1)短语一般由数词和各种特征词构成,如:日、月、年、元、角、$。

(2)数词本身的成分可能比较复杂,其中,数字不仅可能是汉字,还可能是半角和全角的阿拉伯数字;中间可能有标点符号,如“5.25”,“125,000”,“1949一1996”;数字中可能有非数字连接词,如“一又四分之三”。

(3)数词前可附加“初”、“第”等前缀词,数词前后可附加有“近”、“约”、“左右”、“多”等表示概数的词。


有鉴于此;我们增加了一次独立的扫描过程来识别这些短语。系统维护一张特征词表,在扫描到数字后,即调用数词识别模块,确定由标点符号和连接词连接起来的数词的左右边界;然后在左右边界附近寻找前缀词、概数词和特征词;最后将短语完整地切分开,并根据特征词确定短语的类型。这种方法虽然增加了一次扫描过程,但提高了切分的精度,减轻了后续过程的负担。



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
  • 上一篇:中文姓名的自动辨识
  • 下一篇:切分歧义处理知识


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)