返回

机翻技术

搜索 导航
超值满减
发音词典的相关技术简单介绍
2022-06-26 09:59:14    etogether.net    网络    



发音词典实际上既可以用于ASR(自动语音识别)系统,也可以用于TTS(文本-语音转换)系统,尽管由于这两种系统的需要不同,发音词典的内容可能会有所不同。


最简单的发音词典只包含由单词及其发音组成的一个词表。


1.png

这样的大规模的在线发音词典有三部,分别是PRONLEX,CMUdict和CELEX。它们可用于语音识别,也可以用于语音合成。PRONLEX发音词典(LDC,1995)是为语音识别而设计的,包含90694个词形的发音,可覆盖多年来在华尔街日报语料库和Switchboard语料库(Switchboard Corpus)中使用的单词。CMUdict发音词典也是为自动语音识别(ASR)的目的而开发的,包含大约100000个词形的发音。CELEX发音词典(Celex,1993)包括《牛津高级英语学习词典》(1974)(41000个原形词)和《朗文现代英语词典》(1978)(53000个原形词)的全部单词,总共包含160595个词形的发音。CELEX发音词典是英国英语发音,其他两部发音词典是美国英语发音。每部发音词典所用的音子集(phone set)不一样,CMU和PRONLEX的音子集是从ARPAbet推出来的,CELEX 的音子集是从IPA推出来的。三部发音词典都把重音表示为三层:主重音、次重音和无重音。图2 说明了armadillo这个词在三部发音词典中的发音情况。


2.png

图2 在三部词典中单词armadillo的发音。我们不解释这些特殊的发音符号,对于每种发音都给出了等价的IPA音标。在CMU发音词典中,对于非重读元音([a],[等),用0级重音来表示。在IPA标音中,在元音下面加下划线来表示。注意,在英国英语的CELEX的发音中r-脱落的现象以及元音使用[əʊ]而不使用[oʊ]的表示方法




[1] [2] [下一页] 【欢迎大家踊跃评论】

上一篇:文本 - 语音转换中的韵律
下一篇:没有了

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关行业文章






PC版首页 -关于我们 -联系我们