会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

中文姓名的自动辨识

发布时间: 2022-12-20 09:26:16   作者:etogether.net   来源: 网络   浏览次数:


计算姓名样本库中所有姓名的概率估值后发现,对数概率估值曲线呈陡峭的单峰分布,极高或极低的概率估值均不多,因此,可以设定概率估值阈值,舍弃那些概率估值小于阈值的候选名字。


2. 具有指示意义的上下文信息

一些上下文信息有助于姓名的辨识,主要有称谓、指界动词、匹配模式。这些上下文信息和姓氏频率表XFL与名字用字频率表MCFL一起构成中文姓名辨识的知识源。

称谓常与名字同时出现,对姓名辨识有指示作用。例如:

“省长李长春赶到了抗灾现场”。称谓“省长”指示了姓名的左边界。

“这是王继宁教授的学生”。称谓“教授”指示了姓名的右边界。


按和名字的前后顺序,可以把称谓分成三类:

(1)只能用于姓名之后,如“之流”,“阁下”等。

(2)只能用于姓名之前,如“青年”,“战士”等。

(3)用于姓名前后均可,如“先生”,“市长”等。

一些动词,如“说、是、指出、认为、表示、参加”等,常常接在姓名的后面,可以用来帮助确定姓名的右边界。如:“姬鹏飞指出……”。


某些模式,如“……的〈姓名〉”,“以〈姓名〉为〈称谓〉”等,也具有界定姓名左右边界的功效。如:“同济大学的叶冬梅”,“以欧少雄为团长的澳门工会代表团”。


3. 姓名辨识的过程

输入文本分割成句子,并用最大匹配法分词之后,对句中的每个字加上标志。加标志主要根据当前字是否为孤立字,是否可做单字词,是否属于某个指界动词,是否属于某个称谓。


接下来寻找句中所有可能的潜在姓名cn,并添加到潜在姓名表CNL中。要求cn的姓氏用字在姓氏频率表XFL中,而名字用字在名字用字频率表MCFL中。再计算cn的概率估值,若cn的概率估值小于阈值,则舍弃之。但是如果cn的每个字都是孤立字,就要放宽阈值要求。


定义同源对为以句内同一位置为姓氏起点的单名与双名。定义互斥对为以句内不同位置为姓氏起点,同时相互间又有交叉的两个姓名。同源对和互斥对体现了潜在姓名之间的相互制约关系。如果一个潜在姓名被肯定,则所有和它同源或互斥的潜在姓名都将从潜在姓名表CNL中删除。


根据潜在姓名cn上下文中出现的称谓、指界动词和特定模式,可以部分地确定cn的左右边界。若cn的左边界确定,记为#cn,若cn的右边界确定,记为cn#。若#cn且cn#,则cn被完全确定为姓名。如果同源对形如[z1z2z3#,z1z2],则否定z1z2。如果互斥对形如[#z1z2z3,z2z3],则否定z2z3。


互斥对(cn1,cn2)根据概率估值来竞争。用lg(p(cn))表示cn的对数概率估值。若:图1.png  ,则否定cn2;反之,否定cn1。


实验表明,上述过程达到了70.06%的准确率和99.77%的查全率。



责任编辑:admin



微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:自然语言歧义的消除
  • 下一篇:复旦分词系统介绍


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)