- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
分析词典存放词汇信息,是自动分词、句法分析、语义分析,和其他自然语言处理任务的重要知识源。一般说来,理想的分析词典大小为10万个词条左右。分析词典的词汇信息必须按照词义来组织。这是因为,对汉语来说,大多数的常用词都是多义词。最简单的词只有一个词性和词义。复杂的词,可能有多个词性,每个词性又可能有多个词义,不同的词义,读音也可能不一样。
具体地,分析词典存放的词汇信息又可分为以下几种:
1. 词条信息
词条信息包括读音、使用频率等等。其中最重要的是使用频率,自然语言处理的统计方法就是建立在频率统计的基础上的。在自动标注和词频统计阶段,使用频率是最重要的信息。而在自动分词、句法分析和语义分析中,在出现歧义的情况下,可利用频率信息来选择正确的结果。
频率信息主要来自语料库的统计结果。频率统计可以针对词,可以针对词性,也可以是针对词义的。统计得越详细,使用的原始数据越多,在自然语言处理中发挥的作用也越可靠。
2. 词法信息
词法信息包括词性和构词方式。汉语的词汇按照通常的分法分为13种词性。但是,详细的词性划分,能减少分析规则的书写难度,从而有助于减轻分析过程的复杂程度,因此在实际应用的时候,往往再进一步细分。清华大学在语料库标记时,即使用了如下的24类的分类方法:名词、方位词、处所词、时间词、数词、量词、区别词、代词、动词、形容词、状态词、副词、介词、连词、助词、语气词、叹词、象声词、前缀、后缀、成语、简称略语、习用语和其他。
构词方式也是一项重要的词法信息,在词典里存放构词信息可以减少词典的容量,降低冗余度。在印欧语中,词汇的派生常常引起词性的改变和意义的转移,一般要加以特殊的处理。汉语虽较缺乏词形的变化。但也有几种构词方式,包括儿化、叠词、加前缀、加后缀等,例如:
儿化:花儿 悄悄儿 玩儿
叠词:高高兴兴 绿油油 高高蒙蒙亮 马里马虎 雪白雪白
加前缀:第一 初五 阿姨 老蛇
加后缀:科学家 学者 标准化 哥儿们