语音识别的总体结构

发布时间： 2022-07-17 09:45:31 作者：etogether.net 来源：网络浏览次数：

摘要: 为了对这个噪声句子进行“解码”，要考虑所有可能的句子，对于每个句子，要计算它生成噪声句子的概率，然后选取概率最大的句子。

语音识别系统把语音的声学输入看成是源句子的一个噪声“版本”。为了对这个噪声句子进行“解码”，要考虑所有可能的句子。对于每个句子，要计算它生成噪声句子的概率，然后选取概率最大的句子。图1具体说明了这个“噪声信道”的比喻。

图1应用于整个句子的噪声信道模型。现代语音识别系统的工作就是要搜索一个很大的潜在源句子空间，并选择在生成噪声句子时具有最大概率的句子。为了做到这些，语音识别系统不惜使用各种模型：表示实现为一定的单词串的句子的概率模型（N元语法），表示实现为一定的音子串的单词的概率模型（HMM），表示实现为声学特征或声谱特征的音子的概率模型（高斯/MLP）

如图1所示，建立噪声信道模型需要解决两个问题。第一个问题是，为了挑选出与噪声输入匹配的最佳句子，需要对“最佳匹配”有一个完全的度量。因为语音是变化多端的，一个声学输入句子不可能与这个句子的任何模型都匹配得天衣无缝。我们将使用概率作为度量，并且说明了如何把不同的概率估计结合起来，以便对给定的候选句子的噪声观察序列的概率得到一个完全的估计。第二个问题是，因为所有英语句子的集合非常大，我们需要一个有效的算法，使得不必对所有可能的句子都进行搜索，而只搜索那些有机会与输入匹配的句子。这就是解码问题或搜索问题，我们将总结两种方法：Viterbi解码算法或动态规划算法，栈解码算法或A*解码算法。

语音识别的概率噪声信道总体结构的目标如下：

“对于给定的某个声学输入O，在语言的ζ所有句子中，哪个句子是最可能的句子？”

我们可以把声学输入O作为单个“符号”或“观察”的序列来处理（例如，把输入按每10微秒切分成音片，每个音片用它的能量或频度的浮点值来表示）。我们用索引号来表示时间间隔，用有顺序的Oi表示在时间上前后连续的输入音片（注意，大写字母表示符号的序列，小写字母表示单

个的符号）：

7.1.png

类似地，我们在表示句子时，也把它看成是似乎由单词简单地构成的单词串：

7.2.png

无论是声学输入还是句子的这种表示，都是简化了的假设；例如，有时把句子切分成单词显得太细（当我们想模拟单词的组合而不是单个词时），有时又显得太粗（当我们想讨论形态时）。在语音识别中，单词通常是根据正词法来定义的（当把每个单词映射为小写字母以后）：把oak与oaks当成不同的单词来处理；但是，助动词can(“can you tell me…?”)与名词can(“i need a can of…”)却被当成相同的单词来处理。最近的ASR研究开始注意建立更复杂的ASR单词模型。

前面的直觉概率表示如下：

7.3.png

函数argmax f(x)的意思是“使得 f(x)为最大值的x”。式（7.3）能保证给出最优的句子W，但现在需要使这个等式运行起来；这就是说，对于给定的句子W和声学序列O，我们需要计算出P(W|O)。我们知道，对于任何给定的概率P(xly)，可以使用贝叶斯规则，把这个概率P(xly)分解如下：

[1] [2] [下一页] 【欢迎大家踊跃评论】

上一篇：A*解码算法应用于语音识别系统
下一篇：Viterbi算法在语音识别中的应用

《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至18964029557@163.com，我们将及时沟通与处理。

语音识别的总体结构

相关机器翻译技术文章

免费在线翻译

翻译机

外语书籍

行业文章

人工翻译