- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
模拟英语和其他自然语言成分结构的最常用数学系统是上下文无关语法(Context-Free Grammar,简称CFG)。上下文无关语法又称为短语结构语法(Phrase-Structure Grammar),而它的形式化方法等价于Backus-Naur范式(Backus-Naur Form,简称BNF)。把一种语法建立在成分结构基础上的这种思想,可以追溯到心理学家Wilhelm Wundt(1900),但是直到Chomsky(1956)才把这种思想形式化,Backus(1959)也独立地进行了相同的工作。
一个上下文无关语法由一套规则(rule)或产生式(production)以及单词和符号的一个词表(lexicon)组成,每个规则表示语言中的符号的组成和排序方式。下面的产生式表示一个NP(或者名词短语)可以由一个专有名词(ProperNoun)组成,或者由一个限定词(Det)后面跟着一个名词性成分(Nominal)组成;一个名词性成分可以是一个或多个名词。
NP → Det Nominal (9.2)
NP → ProperNoun(9.3)
Nominal → Noun I Noun Nominal(9.4)
上下文无关规则可以按层级嵌套,所以前面的规则可以与下面的表示词汇事实的规则结合起来:
Det→ a (9.5)
Det → the (9.6)
Noun → flight (9.7)
在CFG中所用的符号分为两类。与语言中的单词相对应的符号(如the和nightclub)称为终极符号(terminal symbol);词表是引入这些终极符号的规则的集合。表示这些终极符号的聚类或概括性的符号称为非终极符号(non-terminal)。在每个上下文无关规则中,箭头(→)右边的项是一个或者多个终极符号和非终极符号构成的有序表,而箭头的左边是一个单独的非终极符号,表示某种聚类或概括性。注意,在词表中,与每个单词相关联的非终极符号是它们的词类范畴,或者是称为词类。
通常可以按两种方式来考虑CFG,把它想像成生成句子的装置,或者把它想像成对于给定的句子指派结构的装置。作为句子的生成装置,我们可以把“→”读为“用右边的符号串来重写左边的符号”。这样,如果开始时的符号是
NP,
我们可以使用规则(9.2),把NP重写为:
Det Nominal,
然后使用规则(9.4),继续重写为:
Det Noun,
最后,使用规则(9.5)和规则(9.7),重写为:
a flight,
这时,我们说,符号串a flight可以从非终极符号NP推导(derived)出来。因此,CFG可以用来随机地生成一系列的符号串。这种规则展开的序列称为单词符号串的一个推导(derivation)。通常我们用一个剖析树(parse tree)来表示一个推导(一般是倒过来把树的根置于上方)。图1是表示上述推导的一个剖析树。
CFG定义的形式语言是从指定的初始符号(start symbol)开始推导出来的符号串的集合。每个语法必须有一个指定的初始符号,这个初始符号通常称为S,由于上下文无关语法通常用来定义句子,所以S通常可以解释为“句子”(sentence)。在某个简化的英语语法中,由S推导出来的符号串的集合就是句子的集合。
现在,我们给语法增加几个展开S的级别较高的规则以及几个其他规则。其中一个规则用来表示一个句子可以由一个名词短语和一个动词短语构成的事实:
S → NP VP I prefer a morning flight
英语中的一个动词短语可以由一个动词后面跟着有关的其他成分组成,有一种动词短语可以由一个动词后面跟着一个名词短语组成:
VP → Verb NP prefer a morning flight
或者由动词后面跟着一个名词短语和一个介词短语组成:
VP → Verb NP PP leave Boston in the morning
或者由动词后面只跟着一个介词短语组成:
VP → Verb PP leaving on Thursday
介词短语一般由一个介词后面跟着一个名词短语组成。例如,在ATIS语料库中最常见的介词短语类型用于表示位置和方向:
PP → Preposition NP from Los Angeles