- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
在定义语法之前,必须先定义好词典。这里,我们主要讨论词典设计的一些问题,并研究词语形态分析所需要的组成模块。
词典必须包含所有会用到的不同词语的信息,同时也包括所有的相关特征值约束。当词语存在歧义的时候,词典中必须采用多个词条来描述这些不同的信息,要求每个词条对应一种不同的用法。
词语通常都遵循一些有规律的词语形态模式,因此,没有必要将词语的各种形式都收录到词典中。比如,绝大多数英语动词都采用同样的后缀集合以表示不同的词语形式:加上“s”用于第三人称单数现在时,“ed”用于过去时,“ing”用于现在进行时,等等。如果没有词语形态分析,词典中就必须包含词的每一种变换形式。例如,动词“want”就需要有六个词条,分别是want(基本形式和现在时),wants,wanting,wanted(过去时和过去分词形式)。
与此相反的是,如果我们将后缀剥离出来,那么,词典就只须保留一个“want”词条。其主要思想是在词典中存储动词的基本形式,然后使用上下文无关规则将动词与后缀相结合,从而派生出其他的词条。下面是产生动词现在时的规则:
(V ROOT ?r SUBCAT ?s VFORM pres AGR 3s) →
(V ROOT ?r SUBCAT ?s VFORM base) (+S)
在这里,+S是一种只包含后缀词素“s”的新词类。给定输入串 want -s,该规则结合下面的词条:
want:(V ROOT want
SUBCAT {_np _vp:inf _np_vp:inf}
VFORM base)
会生成下面的语法成分:
want:(V ROOT want
SUBCAT {_np _vp:inf _np_vp:inf}
VFORM pres
AGR 3s)
另外一条规则可以生成非第三人称单数情况下的现在时成分,对于大部分动词来说,该成分与词根形式完全一致:
(V ROOT ?r SUBCAT ?s VFORM pres AGR {1s 2s 1p 2p 3p}) →
(V ROOT ?r SUBCAT ?s VFORM base)
为了避免产生错误的解析结果,我们还需要对这条规则做进一步的修改。现在的这条规则可以把任意的动词基本形式直接转化为现在时,但这对不规则动词来说显然是错误的。例如,基本形式be就不能用做现在时(如,“*We be at the store”,*我们在商店)。为了涵盖这种情况,需要引入特征来区分不规则形式。具体地说,二元特征为+IRREG-PRES的动词存在不规则的现在时形式。因此,上述规则可以正确地表述如下:
(V ROOT ?r SUBCAT ?s VFORM pres AGR {1s 2s lp 2p 3p})→
(V ROOT ?r SUBCAT ?s VFORM base IRREG-PRES –)