- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
我们可以把二元语法模型(只看过去的一个单词)推广到三元语法模型(看过去的两个单词),再推广到N元语法模型(看过去的N-1个单词)。二元语法模型称为一阶马尔可夫模型(因为它只看过去的一个词例),三元语法模型称为二阶马尔可夫模型,N元语法模型称为N-1阶马尔可夫模型。直到1958年Chomsky发表对Skinner的Verbal Behavior(言语行为)评论之前,单词的马尔可夫模型在工程技术、心理学和语言学中得到了普遍应用,但是后来不再流行了。IBM公司的Thomas J. Watson研究中心语音识别实验室应用N元语法模型在语音识别中取得了很大的成绩,马尔可夫模型又重新引起了学术界的注意。
在一个序列中,N元语法对于下一个单词的条件概率逼近的通用等式是:
式(6.8)说明,对于所有给定的前面的单词,单词w n。的概率可以只通过前面N个单词的概率来逼近。
对于二元语法来说,我们把式(6.8)代入式(6.5),就可以计算出整个符号串的概率。结果如下:
让我们来看语音理解系统中的一个例子。Berkeley Restaurant Project(Berkeley饭店规划)是一个基于语音的饭店咨询系统,用户可以通过这个系统询问关于California州Berkeley饭店的问题,系统从地方饭店的数据库中检索合适的信息显示给用户(Jurafsky et al.,1994)。这里是用户提问的一些样本:
I'm looking for Cantonese food.
(我在找广东菜的饭店。)
I'd like to eat dinner someplace nearby.
(我喜欢在附近的地方吃晚餐。)
Tell me about Chez Panisse.
(请告诉我关于Chez Panisse饭店的情况。)
Can you give me a listing of the kinds of food that are available?
(你可以给我已经准备好的各种食品的清单吗?)
I'm looking for a good place to eat breakfast.
(我正在找一个适合吃早饭的地方。)
I definitely do not want to have cheap Chinese food.
(我确实不想吃便宜的中国食品。)
When is Caffe Venezia open during the day?
(近来Venezia咖啡店什么时候开门?)
I don't wanna walk more than ten minutes.
(走10分钟以上的地方我不想去。)
图6.2中的表是关于二元语法概率的一个样本,它说明了在单词eat之后可能出现的某些单词的概率,这些概率是从用户所说的句子中统计得出的(现在我们不考虑训练二元语法概率的算法)。注意,这些概率编码说明了某些事实,这些事实是:在本质上很严格的句法事实(在eat之后常常
会是一个名词短语的开头,例如形容词、修饰词或名词等)以及某些与文化有关的事实(在英国询问如何找英国食品的概率是很低的)。
图6.2 Berkeley Restaurant Project 中说明eat后最容易出现的单词的二元语法的一个片断