- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
计算姓名样本库中所有姓名的概率估值后发现,对数概率估值曲线呈陡峭的单峰分布,极高或极低的概率估值均不多,因此,可以设定概率估值阈值,舍弃那些概率估值小于阈值的候选名字。
2. 具有指示意义的上下文信息
一些上下文信息有助于姓名的辨识,主要有称谓、指界动词、匹配模式。这些上下文信息和姓氏频率表XFL与名字用字频率表MCFL一起构成中文姓名辨识的知识源。
称谓常与名字同时出现,对姓名辨识有指示作用。例如:
“省长李长春赶到了抗灾现场”。称谓“省长”指示了姓名的左边界。
“这是王继宁教授的学生”。称谓“教授”指示了姓名的右边界。
按和名字的前后顺序,可以把称谓分成三类:
(1)只能用于姓名之后,如“之流”,“阁下”等。
(2)只能用于姓名之前,如“青年”,“战士”等。
(3)用于姓名前后均可,如“先生”,“市长”等。
一些动词,如“说、是、指出、认为、表示、参加”等,常常接在姓名的后面,可以用来帮助确定姓名的右边界。如:“姬鹏飞指出……”。
某些模式,如“……的〈姓名〉”,“以〈姓名〉为〈称谓〉”等,也具有界定姓名左右边界的功效。如:“同济大学的叶冬梅”,“以欧少雄为团长的澳门工会代表团”。
3. 姓名辨识的过程
输入文本分割成句子,并用最大匹配法分词之后,对句中的每个字加上标志。加标志主要根据当前字是否为孤立字,是否可做单字词,是否属于某个指界动词,是否属于某个称谓。
接下来寻找句中所有可能的潜在姓名cn,并添加到潜在姓名表CNL中。要求cn的姓氏用字在姓氏频率表XFL中,而名字用字在名字用字频率表MCFL中。再计算cn的概率估值,若cn的概率估值小于阈值,则舍弃之。但是如果cn的每个字都是孤立字,就要放宽阈值要求。
定义同源对为以句内同一位置为姓氏起点的单名与双名。定义互斥对为以句内不同位置为姓氏起点,同时相互间又有交叉的两个姓名。同源对和互斥对体现了潜在姓名之间的相互制约关系。如果一个潜在姓名被肯定,则所有和它同源或互斥的潜在姓名都将从潜在姓名表CNL中删除。
根据潜在姓名cn上下文中出现的称谓、指界动词和特定模式,可以部分地确定cn的左右边界。若cn的左边界确定,记为#cn,若cn的右边界确定,记为cn#。若#cn且cn#,则cn被完全确定为姓名。如果同源对形如[z1z2z3#,z1z2],则否定z1z2。如果互斥对形如[#z1z2z3,z2z3],则否定z2z3。
互斥对(cn1,cn2)根据概率估值来竞争。用lg(p(cn))表示cn的对数概率估值。若: ,则否定cn2;反之,否定cn1。
实验表明,上述过程达到了70.06%的准确率和99.77%的查全率。
责任编辑:admin