会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

语音识别的总体结构

发布时间: 2022-07-17 09:45:31   作者:etogether.net   来源: 网络   浏览次数:
摘要: 为了对这个噪声句子进行“解码”,要考虑所有可能的句子,对于每个句子,要计算它生成噪声句子的概率,然后选取概率最大的句子。


语音识别系统把语音的声学输入看成是源句子的一个噪声“版本”。为了对这个噪声句子进行“解码”,要考虑所有可能的句子。对于每个句子,要计算它生成噪声句子的概率,然后选取概率最大的句子。图1具体说明了这个“噪声信道”的比喻。


1.png


图1应用于整个句子的噪声信道模型。现代语音识别系统的工作就是要搜索一个很大的潜在源句子空间,并选择在生成噪声句子时具有最大概率的句子。为了做到这些,语音识别系统不惜使用各种模型:表示实现为一定的单词串的句子的概率模型(N元语法),表示实现为一定的音子串的单词的概率模型(HMM),表示实现为声学特征或声谱特征的音子的概率模型(高斯/MLP)


如图1所示,建立噪声信道模型需要解决两个问题。第一个问题是,为了挑选出与噪声输入匹配的最佳句子,需要对“最佳匹配”有一个完全的度量。因为语音是变化多端的,一个声学输入句子不可能与这个句子的任何模型都匹配得天衣无缝。我们将使用概率作为度量,并且说明了如何把不同的概率估计结合起来,以便对给定的候选句子的噪声观察序列的概率得到一个完全的估计。第二个问题是,因为所有英语句子的集合非常大,我们需要一个有效的算法,使得不必对所有可能的句子都进行搜索,而只搜索那些有机会与输入匹配的句子。这就是解码问题或搜索问题,我们将总结两种方法:Viterbi解码算法或动态规划算法,栈解码算法或A*解码算法。


语音识别的概率噪声信道总体结构的目标如下:

“对于给定的某个声学输入O,在语言的ζ所有句子中,哪个句子是最可能的句子?”


我们可以把声学输入O作为单个“符号”或“观察”的序列来处理(例如,把输入按每10微秒切分成音片,每个音片用它的能量或频度的浮点值来表示)。我们用索引号来表示时间间隔,用有顺序的Oi表示在时间上前后连续的输入音片(注意,大写字母表示符号的序列,小写字母表示单

个的符号):


7.1.png


类似地,我们在表示句子时,也把它看成是似乎由单词简单地构成的单词串:


7.2.png


无论是声学输入还是句子的这种表示,都是简化了的假设;例如,有时把句子切分成单词显得太细(当我们想模拟单词的组合而不是单个词时),有时又显得太粗(当我们想讨论形态时)。在语音识别中,单词通常是根据正词法来定义的(当把每个单词映射为小写字母以后):把oak与oaks当成不同的单词来处理;但是,助动词can(“can you tell me…?”)与名词can(“i need a can of…”)却被当成相同的单词来处理。最近的ASR研究开始注意建立更复杂的ASR单词模型。


前面的直觉概率表示如下:


7.3.png


函数argmax f(x)的意思是“使得 f(x)为最大值的x”。式(7.3)能保证给出最优的句子W,但现在需要使这个等式运行起来;这就是说,对于给定的句子W和声学序列O,我们需要计算出P(W|O)。我们知道,对于任何给定的概率P(xly),可以使用贝叶斯规则,把这个概率P(xly)分解如下:



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)