当前位置：首页 > 机翻技术 > 识别技术 > 正文

中文姓名的自动辨识

发布时间： 2022-12-20 09:26:16 作者：etogether.net 来源：网络浏览次数：

计算姓名样本库中所有姓名的概率估值后发现，对数概率估值曲线呈陡峭的单峰分布，极高或极低的概率估值均不多，因此，可以设定概率估值阈值，舍弃那些概率估值小于阈值的候选名字。

2. 具有指示意义的上下文信息

一些上下文信息有助于姓名的辨识，主要有称谓、指界动词、匹配模式。这些上下文信息和姓氏频率表XFL与名字用字频率表MCFL一起构成中文姓名辨识的知识源。

称谓常与名字同时出现，对姓名辨识有指示作用。例如：

“省长李长春赶到了抗灾现场”。称谓“省长”指示了姓名的左边界。

“这是王继宁教授的学生”。称谓“教授”指示了姓名的右边界。

按和名字的前后顺序，可以把称谓分成三类：

（1）只能用于姓名之后，如“之流”，“阁下”等。

（2）只能用于姓名之前，如“青年”，“战士”等。

（3）用于姓名前后均可，如“先生”，“市长”等。

一些动词，如“说、是、指出、认为、表示、参加”等，常常接在姓名的后面，可以用来帮助确定姓名的右边界。如：“姬鹏飞指出……”。

某些模式，如“……的〈姓名〉”，“以〈姓名〉为〈称谓〉”等，也具有界定姓名左右边界的功效。如：“同济大学的叶冬梅”，“以欧少雄为团长的澳门工会代表团”。

3. 姓名辨识的过程

输入文本分割成句子，并用最大匹配法分词之后，对句中的每个字加上标志。加标志主要根据当前字是否为孤立字，是否可做单字词，是否属于某个指界动词，是否属于某个称谓。

接下来寻找句中所有可能的潜在姓名cn，并添加到潜在姓名表CNL中。要求cn的姓氏用字在姓氏频率表XFL中，而名字用字在名字用字频率表MCFL中。再计算cn的概率估值，若cn的概率估值小于阈值，则舍弃之。但是如果cn的每个字都是孤立字，就要放宽阈值要求。

定义同源对为以句内同一位置为姓氏起点的单名与双名。定义互斥对为以句内不同位置为姓氏起点，同时相互间又有交叉的两个姓名。同源对和互斥对体现了潜在姓名之间的相互制约关系。如果一个潜在姓名被肯定，则所有和它同源或互斥的潜在姓名都将从潜在姓名表CNL中删除。

根据潜在姓名cn上下文中出现的称谓、指界动词和特定模式，可以部分地确定cn的左右边界。若cn的左边界确定，记为#cn，若cn的右边界确定，记为cn#。若#cn且cn#，则cn被完全确定为姓名。如果同源对形如[z1z2z3#，z1z2]，则否定z1z2。如果互斥对形如[#z1z2z3，z2z3]，则否定z2z3。

互斥对（cn1,cn2）根据概率估值来竞争。用lg(p(cn))表示cn的对数概率估值。若：图1.png ，则否定cn2;反之，否定cn1。

实验表明，上述过程达到了70.06%的准确率和99.77%的查全率。

责任编辑：admin

[上一页][1] [2] 【欢迎大家踊跃评论】

《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至18964029557@163.com，我们将及时沟通与处理。

中文姓名的自动辨识

相关机器翻译技术文章

免费在线翻译

翻译机

外语书籍

行业文章

人工翻译