语音识别系统的训练

发布时间： 2022-07-20 09:25:20 作者：etogether.net 来源：网络浏览次数：

摘要: 为了训练一个基本的语音识别系统，我们需要的概率模型共有4个。

我们已经知道了怎样建立一个Viterbi解码器，Viterbi解码器怎样采用三个输入（观察概率、HMM词表和N元语法的语言模型），并产生出概率最大的单词符号串。其中，观察概率是通过高斯估计或MLP估计从声谱特征得到的。但是，我们还不知道怎样来训练概率模型，以建立一个语音识别系统。

此文将扼要地介绍大多数ASR系统使用的嵌入训练（embedded training）过程，不考虑这些系统是基于高斯模型的，基于MLP的，还是基于矢量量化的。首先，为了训练一个基本的语音识别系统，我们需要的概率模型共有4个：

● 语言模型概率 P(WilWi-1,Wi-2)

● 观察似然度 bj(Ot）

● 转移概率 aij

● 发音词表 HMM状态图结构

为了训练语音识别系统中的这些组成部分，一般来说需要有：

● 一个带有单词转写的语音声波文件的训练语料库

● 一个用于训练语言模型的大规模文本语料库，这个语料库中应该包含来自语音语料库的单词转写以及其他许多类似的文本

● 通常还需要一个小规模的、用于训练的语音语料库，这个语料库要有语音标记（也就是说，声学信号的框架要手工进行音位标注）

让我们从N元语法的语言模型开始。对大规模语料库中N元语法的出现单位进行计数，然后对这些计数进行平滑化和归一化。用于训练语言模型的语料库一般比用于训练HMM参数a和b的语料库的规模大得多。这是因为，训练语料库越大，模型的精确度越高。由于N元语法模型训练起来比训练HMM观察概率快，又由于文本需要的空间比语音需要的空间少，实践证明，使用5000万单词的大型语料库来训练语言模型是可行的。在一般情况下，用于训练HMM参数的语料库也是语言模型数据的一部分；重要的是保持声学模型和语言模型的一致性。

[1] [2] [下一页] 【欢迎大家踊跃评论】

《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net，我们将及时沟通与处理。

语音识别系统的训练

相关机器翻译技术文章

免费在线翻译

翻译机

外语书籍

行业文章

人工翻译