- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
中文姓名的自动辨识对中文信息处理的重要性是不言而喻的。中文姓名不像印欧语言那样,可以通过大写字母来辨识,而其中的不少姓氏和名字用字又可构成普通词或普通词的一部分,如果不加以处理,将导致相当数量的分词错误,轻微的,将把姓名拆成字串;严重的,还将造成错误的蔓延现象。这些都给姓名辨识造成了很大难度。
姓名辨识主要利用的信息包括:中文姓名的用字规律,姓名用字的使用频率,以及姓名上下文。
1. 姓氏频率表与名字用字频率表
通过对174,900个中文姓名进行抽样综合统计的结果,建立姓氏频率表XFL与名字用字频率表MCFL,并从中发现,中文姓名的用字有以下几个规律:
(1)统计得到的姓氏不多,仅为729个,分布很不均匀,但相对集中。前5大姓“王、陈、李、张、刘”占了姓名样本库的32.0%,前365个姓占99.0%,而其余364个姓氏仅占不到1.0%。
(2)某些姓氏可用作单字词,其中不乏高频单字词,例如常见姓氏“王、黄、马、高、于”和不常见姓氏“是、过、来、从、那”。
(3)统计得到3345个名字用字。名字用字的分布较姓氏要平缓、分散,涉及的范围很广,从所属的词类上看,不仅有实词,也有各类虚词。
(4)某些汉字既可用作姓氏,又可用作名字用字。如“林、方、金、江、柳”。
(5)根据构词能力,名字用字可以划分成三类:即可用作单字词的开放式名字用字,虽不可用作单字词,但可构词的相对封闭式名字用字,以及既不可用作单字词,又不可构词的绝对封闭式名字用字。例如“爱”、“睿”、“逵”就分别属于这三类字。
一般说来,中文姓名分单名sn和双名pn两类。其中,
单名形如:sn=x(姓氏)m₁(名字首字);
双名形如:pn=x(姓氏)m₁(名字首字)m2(名字末字)。
令fx(x∈姓氏)表示姓氏x的使用频率;
fm(mi∈名字用字,i=1,2)表示名字用字mi的使用频率。
根据表XFL及MCFL,可给出姓名的概率估值:
p(sn)=fx(x)×fm(m₁),以及p(pn)=fx(x)×fm(m₁)×fm(m₂)。