语音识别系统的训练

发布时间： 2022-07-20 09:25:20 作者：etogether.net 来源：网络浏览次数：

HMM词表结构用手工来建立，工作时要使用一部非定制发音词典，如PRONLEX词典（LDC.1995）或CMUdict词典。在有些系统中，词典中的每个音子都要映射到HMM模型的状态中。这样，单词cat对应于[k]，[ae]和[t]三个状态。但是，很多系统使用我们前面描述的次音子结构，其中每个音子被分割为三个状态：音子的开始部分、中间部分和最后部分。每个这样的次音子还可以进一步在三音子上下文中出现不同的实例。

HMM参数的嵌入训练细节各不相同，这里介绍最简单的一种。首先，我们需要转移概率aij和观察概率bj(ot)的某些初始估计值。对于转移概率，起初假定对于任何状态的所有可能的下一个状态的值都是等概率的。观察概率可以从一个手工标注的小语料库开始，一步一步地使用自举

（bootstrapped）的方法训练得到。例如，TIMIT语料库或Switchboard语料库各有4小时的经过语音标注的口语语料。它们可以为每个语音框架提供一个“正确”的音子状态标记q。这些都可以送到MLP中，或者求其平均给出初始高斯平均值和方差。对于MLP，初始的估计是很重要的，所以手工标注的自举结果（bootstrap）就成为了其后的规范。对于高斯模型，参数的初始值看来不那么重要，所以高斯模型的初始平均值和方差通常只是一个集合，在使用整个训练集的平均值和方差时，这个集合对于所有的状态都是等同的。

现在，对于所有的概率a和b，我们有了初始的估计。在算法的下一个阶段，高斯模型和MLP系统各不相同。对于MLP系统，我们使用一种称为“强制Viterbi对齐”（forced Viterbi alignment）的方法。强制Viterbi对齐取语段中正确单词的序列作为输入，将其与声谱特征矢量对齐。这样能够产生HMM状态的最佳序列，其中的每个状态与一个特征矢量对齐。因此，强制Viterbi对齐是正规Viterbi解码算法的一种简化，因为它只需要列出正确的音子序列，而不必找出单词序列。之所以称之为“强制”的，是因为我们给算法强加了某种约束，要求最佳路径必须通过一个特定的单词序列。它还要求使用Viterbi算法，因为单词有多个发音，并且每个音子的音延是不固定的。强制Viterbi对齐的结果是带有“正确”音子标记的特征矢量的集合，这个集合可以用来对神经网络进行再训练。强制对齐中的转移计数可以用来估计HMM的转移概率。

对于高斯HMM模型，我们不使用强制Viterbi对齐，而使用向前-向后算法。对于给定的初始概率a和b，我们对每个句子计算它的向前概率和向后概率。正如在MLP中的情况，向前-向后算法也需要使用我们对于正确单词的知识来加以约束。对于给定的模型A，用向前-向后算法来计算它的概率。在被转写的句子中，使用“已知”的单词序列的知识，从而能够知道，对于所有的符号串，什么样的单词模型可以使我们得到模型A，然后用这个模型来对每个句子的向前和向后概率进行计算。

责任编辑：admin

[上一页][1] [2] 【欢迎大家踊跃评论】

《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至18964029557@163.com，我们将及时沟通与处理。

语音识别系统的训练

相关机器翻译技术文章

免费在线翻译

翻译机

外语书籍

行业文章

人工翻译