会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

语音识别系统的训练

发布时间: 2022-07-20 09:25:20   作者:etogether.net   来源: 网络   浏览次数:


HMM词表结构用手工来建立,工作时要使用一部非定制发音词典,如PRONLEX词典(LDC.1995)或CMUdict词典。在有些系统中,词典中的每个音子都要映射到HMM模型的状态中。这样,单词cat对应于[k],[ae]和[t]三个状态。但是,很多系统使用我们前面描述的次音子结构,其中每个音子被分割为三个状态:音子的开始部分、中间部分和最后部分。每个这样的次音子还可以进一步在三音子上下文中出现不同的实例。


HMM参数的嵌入训练细节各不相同,这里介绍最简单的一种。首先,我们需要转移概率aij和观察概率bj(ot)的某些初始估计值。对于转移概率,起初假定对于任何状态的所有可能的下一个状态的值都是等概率的。观察概率可以从一个手工标注的小语料库开始,一步一步地使用自举

(bootstrapped)的方法训练得到。例如,TIMIT语料库或Switchboard语料库各有4小时的经过语音标注的口语语料。它们可以为每个语音框架提供一个“正确”的音子状态标记q。这些都可以送到MLP中,或者求其平均给出初始高斯平均值和方差。对于MLP,初始的估计是很重要的,所以手工标注的自举结果(bootstrap)就成为了其后的规范。对于高斯模型,参数的初始值看来不那么重要,所以高斯模型的初始平均值和方差通常只是一个集合,在使用整个训练集的平均值和方差时,这个集合对于所有的状态都是等同的。


现在,对于所有的概率a和b,我们有了初始的估计。在算法的下一个阶段,高斯模型和MLP系统各不相同。对于MLP系统,我们使用一种称为“强制Viterbi对齐”(forced Viterbi alignment)的方法。强制Viterbi对齐取语段中正确单词的序列作为输入,将其与声谱特征矢量对齐。这样能够产生HMM状态的最佳序列,其中的每个状态与一个特征矢量对齐。因此,强制Viterbi对齐是正规Viterbi解码算法的一种简化,因为它只需要列出正确的音子序列,而不必找出单词序列。之所以称之为“强制”的,是因为我们给算法强加了某种约束,要求最佳路径必须通过一个特定的单词序列。它还要求使用Viterbi算法,因为单词有多个发音,并且每个音子的音延是不固定的。强制Viterbi对齐的结果是带有“正确”音子标记的特征矢量的集合,这个集合可以用来对神经网络进行再训练。强制对齐中的转移计数可以用来估计HMM的转移概率。


对于高斯HMM模型,我们不使用强制Viterbi对齐,而使用向前-向后算法。对于给定的初始概率a和b,我们对每个句子计算它的向前概率和向后概率。正如在MLP中的情况,向前-向后算法也需要使用我们对于正确单词的知识来加以约束。对于给定的模型A,用向前-向后算法来计算它的概率。在被转写的句子中,使用“已知”的单词序列的知识,从而能够知道,对于所有的符号串,什么样的单词模型可以使我们得到模型A,然后用这个模型来对每个句子的向前和向后概率进行计算。


责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:人的语音识别
  • 下一篇:声学概率的计算


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)