会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

中文姓名的自动辨识

发布时间: 2022-12-20 09:26:16   作者:etogether.net   来源: 网络   浏览次数:
摘要: 中文姓名不像印欧语言那样,可以通过大写字母来辨识,而其中的不少姓氏和名字用字又可构成普通词或普通词的一部分,如果不加以...


中文姓名的自动辨识对中文信息处理的重要性是不言而喻的。中文姓名不像印欧语言那样,可以通过大写字母来辨识,而其中的不少姓氏和名字用字又可构成普通词或普通词的一部分,如果不加以处理,将导致相当数量的分词错误,轻微的,将把姓名拆成字串;严重的,还将造成错误的蔓延现象。这些都给姓名辨识造成了很大难度。


姓名辨识主要利用的信息包括:中文姓名的用字规律,姓名用字的使用频率,以及姓名上下文。


1. 姓氏频率表与名字用字频率表

通过对174,900个中文姓名进行抽样综合统计的结果,建立姓氏频率表XFL与名字用字频率表MCFL,并从中发现,中文姓名的用字有以下几个规律:


(1)统计得到的姓氏不多,仅为729个,分布很不均匀,但相对集中。前5大姓“王、陈、李、张、刘”占了姓名样本库的32.0%,前365个姓占99.0%,而其余364个姓氏仅占不到1.0%。

(2)某些姓氏可用作单字词,其中不乏高频单字词,例如常见姓氏“王、黄、马、高、于”和不常见姓氏“是、过、来、从、那”。

(3)统计得到3345个名字用字。名字用字的分布较姓氏要平缓、分散,涉及的范围很广,从所属的词类上看,不仅有实词,也有各类虚词。

(4)某些汉字既可用作姓氏,又可用作名字用字。如“林、方、金、江、柳”。

(5)根据构词能力,名字用字可以划分成三类:即可用作单字词的开放式名字用字,虽不可用作单字词,但可构词的相对封闭式名字用字,以及既不可用作单字词,又不可构词的绝对封闭式名字用字。例如“爱”、“睿”、“逵”就分别属于这三类字。


一般说来,中文姓名分单名sn和双名pn两类。其中,

单名形如:sn=x(姓氏)m₁(名字首字);

双名形如:pn=x(姓氏)m₁(名字首字)m2(名字末字)。


令fx(x∈姓氏)表示姓氏x的使用频率;

fm(mi∈名字用字,i=1,2)表示名字用字mi的使用频率。


根据表XFL及MCFL,可给出姓名的概率估值:

p(sn)=fx(x)×fm(m₁),以及p(pn)=fx(x)×fm(m₁)×fm(m₂)。



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
  • 上一篇:自然语言歧义的消除
  • 下一篇:复旦分词系统介绍


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)