会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

文本 - 语音转换中的韵律

发布时间: 2022-06-29 09:18:56   作者:etogether.net   来源: 网络   浏览次数:


具有同样的突显度和短语模型的两段话语可能由于具有不同的调(tune)而在韵律上有所不同。调就是话语的语调节律。我们来考虑语段“oh, really”。不用改变短语和重音,只要改变语调,这个语段也会有很多变体。例如,我们可以激动地说“oh, really!”(当有人告诉你中了彩票,你激动地做出的回应);也可以怀疑地说“oh, really?”(当你不相信说话人所说的是真的时),也可以愤怒地说“oh, really!”来表达你的不悦。语调可以分解成一些组成部分,其中最重要的组成部分是音高重音(pitch accent)。音高重音出现在重读音节中,形成F0曲拱的一个特殊模式(请看下面的解释)。根据模式的类型,可以产生不同的效应。音高重音分类的最流行模式是Pierrehumbert模式或ToBI模式(Pierrehumbert,1980; Silverman et al.,1992)。这个模式指出,英语中共有5种音高重音,是由高调H和低调L两个简单的调按不同的方式组合而成的。H+L模式形成降调,L+H模式形成升调。星号(*)用于表示在重音音节上哪个调是降调。这样,可形成的音高重音模式有H*,L*,

L+H*,L*+H,H+L*(第6个音高重音模式H*+L在该模式的早期版本中出现过,但后来被放弃了)。关于所举的“oh, really”的3个例子,其重音可以分别标为L+H*,L*+H和L*。除了音高重音之外,该模式还有两个短语重音L-和H-,两个边界调L%和H%,用于短语的结尾以控制语调的升或降。


其他语调模型与ToBI模型的不同之处在于,它们不使用离散的音位类别来表示语调重音。例如,Tilt (Taylor, 2000)和Fujisaki模型 (Fujisaki and Ohno,1997) 使用连续的参数而不使用离散的范畴来模拟音高重音。这些研究者证明,离散模型通常比较直观,便于掌握,而连续模型则可能具有更高的鲁棒性和精确性,更便于计算使用。


2. 韵律的语音和声学性质

上述三个音位因素相互作用,并在各种不同的语音和声学现象中实现。突显的音节一般比非突显的音节读得重一些、长一些。韵律的短语边界通常有停顿,边界之前的音节变长,有时边界处的音高变低。语调则表现为基频(F0)曲拱。


3. 语音合成中的韵律

TTS的主要任务是生成韵律的适当语言表示,并且从这样的语言表示出发,生成适当的声学模式,而这样的声学模式将表现为输出语音的波形。这样一个韵律成分在TTS系统中的输出就是音子的一个序列,每个音子都有一个音延(duration)值和一个音高(pitch)值。每个音子的音延与语音上下文有关。F0的值受到前面讨论过的各种因素的影响,包括词重音、句子的重读或焦点成分以及话语的语调(例如,疑问句中后面部分的语调要升高)。图1. 是FESTIVAL(Black et al.,1999)语音合成系统对于句子Do you really want to see all of it?的TTS 输出的一个样本。这个输出以及图2. 所示的F0的值成了波形合成(waveform synthesis)的输入。其中的音延是用CART风格判定树(Riley,1992)来计算的。


1.png

图1. 句子Do you really want to see all of it? 在FESTIVAL 语音合成器 (Black et al., 1999) 中的输出。精确的语调曲拱如图2. 所示。图片由Paul Taylor提供



如上所述,确定一个句子的韵律模式是很困难的,因为需要有真实世界的知识和语义学的信息来判别要重读什么音节,要应用什么语调。此类信息很难从文本中抽取出来,因此韵律模式通常只自然语言处理综论是产生输入文本的“中性的陈述句”,并且假定说这样的句子时,不需要参照话语的历史或现实世界的事件,它是一个默认值。这是在TTS中语调总是显得有些“呆板”的一个主要原因。


2.png


图2. FESTIVAL语音合成系统生成的图1. 中的示例句子的F0曲拱。图片由Paul Taylor提供


责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
我来说两句
评论列表
已有 0 条评论(查看更多评论)