会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

发音词典的相关技术简单介绍

发布时间: 2022-06-26 09:59:14   作者:etogether.net   来源: 网络   浏览次数:


经常会出现两个不同的单词,其拼写形式相同而发音不同(它们称为同形词[homograph])。例如,动词wind(“You need to wind this up more neatly”)的发音为[waɪnd],而名词wind(“blow, blow,thou winter wind”)的发音为[wind]。这个问题在TTS的应用中是非常关键的(因为在一定的上下文中,系统必须判断究竟应该读这两个不同的发音中的哪一个),不过,在当前的语音识别系统中,由于某些原因一般会忽略同形词的问题。书面印刷的发音词典对于不同的词类都要给出不同的发音,CELEX在这方面做得很好,因为CELEX的发音词典是为ASR设计的。在

Pronlex和CMU的发音词典中,对于wind给出了两种不同的发音,但没有说明什么词类用什么样的发音。


发音词典中通常没有收录很多专有名词。在很多实际应用中这是一个很严重的问题。Liberman and Church(1992)曾经报告过,在3300万词的AP新闻语料库中,有21%的词是专有名词。接着,Liberman和Church公布了一个专有名词的词表,包含1987年从Donnelly市场组织收集的150万个专有名词(覆盖了美国的7200万个家庭)。但是,在CELEX(它是根据传统词典编纂的)发音词典的52477个原形词中,只有1000个专有名词。与之对比的是Pronlex, Pronlex包含两万个专有名词,这只是150万个词中的一小部分。只有很少的词典给出Dr. 这样的词条的发音,Liberman and Church (1992) 指出,Dr. 的发音可以为doctor或drive,2/3的发音可以为two thirds,February third或 two slash three。


现有的发音词典还没有很好的模型来处理虚词(and,l,a和of等)的发音。这是因为这些虚词的发音变化的语音上下文环境很复杂。一般在发音词典中只包含某些最基本的形式(例如the的发音为[ði]),再使用其他算法根据上下文推出它的发音变体。


TTS和ASR发音词典的一个最重要的区别在于,TTS的发音词典不需要表示方言的变体;例如,在非常精确的ASR的发音词典中,需要表示either和tomato的不同发音,而在TTS的发音词典中,只要选择不同发音中的一个发音就可以了。


责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:文本 - 语音转换中的韵律
  • 下一篇:没有了


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)