返回

机翻技术

搜索 导航
超值满减
中文姓名的自动辨识
2022-12-20 09:26:16    etogether.net    网络    


计算姓名样本库中所有姓名的概率估值后发现,对数概率估值曲线呈陡峭的单峰分布,极高或极低的概率估值均不多,因此,可以设定概率估值阈值,舍弃那些概率估值小于阈值的候选名字。


2. 具有指示意义的上下文信息

一些上下文信息有助于姓名的辨识,主要有称谓、指界动词、匹配模式。这些上下文信息和姓氏频率表XFL与名字用字频率表MCFL一起构成中文姓名辨识的知识源。

称谓常与名字同时出现,对姓名辨识有指示作用。例如:

“省长李长春赶到了抗灾现场”。称谓“省长”指示了姓名的左边界。

“这是王继宁教授的学生”。称谓“教授”指示了姓名的右边界。


按和名字的前后顺序,可以把称谓分成三类:

(1)只能用于姓名之后,如“之流”,“阁下”等。

(2)只能用于姓名之前,如“青年”,“战士”等。

(3)用于姓名前后均可,如“先生”,“市长”等。

一些动词,如“说、是、指出、认为、表示、参加”等,常常接在姓名的后面,可以用来帮助确定姓名的右边界。如:“姬鹏飞指出……”。


某些模式,如“……的〈姓名〉”,“以〈姓名〉为〈称谓〉”等,也具有界定姓名左右边界的功效。如:“同济大学的叶冬梅”,“以欧少雄为团长的澳门工会代表团”。


3. 姓名辨识的过程

输入文本分割成句子,并用最大匹配法分词之后,对句中的每个字加上标志。加标志主要根据当前字是否为孤立字,是否可做单字词,是否属于某个指界动词,是否属于某个称谓。


接下来寻找句中所有可能的潜在姓名cn,并添加到潜在姓名表CNL中。要求cn的姓氏用字在姓氏频率表XFL中,而名字用字在名字用字频率表MCFL中。再计算cn的概率估值,若cn的概率估值小于阈值,则舍弃之。但是如果cn的每个字都是孤立字,就要放宽阈值要求。


定义同源对为以句内同一位置为姓氏起点的单名与双名。定义互斥对为以句内不同位置为姓氏起点,同时相互间又有交叉的两个姓名。同源对和互斥对体现了潜在姓名之间的相互制约关系。如果一个潜在姓名被肯定,则所有和它同源或互斥的潜在姓名都将从潜在姓名表CNL中删除。


根据潜在姓名cn上下文中出现的称谓、指界动词和特定模式,可以部分地确定cn的左右边界。若cn的左边界确定,记为#cn,若cn的右边界确定,记为cn#。若#cn且cn#,则cn被完全确定为姓名。如果同源对形如[z1z2z3#,z1z2],则否定z1z2。如果互斥对形如[#z1z2z3,z2z3],则否定z2z3。


互斥对(cn1,cn2)根据概率估值来竞争。用lg(p(cn))表示cn的对数概率估值。若:图1.png  ,则否定cn2;反之,否定cn1。


实验表明,上述过程达到了70.06%的准确率和99.77%的查全率。



责任编辑:admin




[上一页][1] [2] 【欢迎大家踊跃评论】

上一篇:自然语言歧义的消除
下一篇:复旦分词系统介绍

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们