- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
发音词典实际上既可以用于ASR(自动语音识别)系统,也可以用于TTS(文本-语音转换)系统,尽管由于这两种系统的需要不同,发音词典的内容可能会有所不同。
最简单的发音词典只包含由单词及其发音组成的一个词表。
这样的大规模的在线发音词典有三部,分别是PRONLEX,CMUdict和CELEX。它们可用于语音识别,也可以用于语音合成。PRONLEX发音词典(LDC,1995)是为语音识别而设计的,包含90694个词形的发音,可覆盖多年来在华尔街日报语料库和Switchboard语料库(Switchboard Corpus)中使用的单词。CMUdict发音词典也是为自动语音识别(ASR)的目的而开发的,包含大约100000个词形的发音。CELEX发音词典(Celex,1993)包括《牛津高级英语学习词典》(1974)(41000个原形词)和《朗文现代英语词典》(1978)(53000个原形词)的全部单词,总共包含160595个词形的发音。CELEX发音词典是英国英语发音,其他两部发音词典是美国英语发音。每部发音词典所用的音子集(phone set)不一样,CMU和PRONLEX的音子集是从ARPAbet推出来的,CELEX 的音子集是从IPA推出来的。三部发音词典都把重音表示为三层:主重音、次重音和无重音。图2 说明了armadillo这个词在三部发音词典中的发音情况。
图2 在三部词典中单词armadillo的发音。我们不解释这些特殊的发音符号,对于每种发音都给出了等价的IPA音标。在CMU发音词典中,对于非重读元音([a],[等),用0级重音来表示。在IPA标音中,在元音下面加下划线来表示。注意,在英国英语的CELEX的发音中r-脱落的现象以及元音使用[əʊ]而不使用[oʊ]的表示方法