会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

人的语音识别

发布时间: 2022-07-21 09:23:01   作者:etogether.net   来源: 网络   浏览次数:
摘要: 人的语音感知还是基于提示的(cue-based),语音输入要结合很多不同层次的提示来解释。


人的语音识别有很多特征与我们介绍过的语音自动识别模型的很多特征是共同的。前面说过,像PLP分析这样的信号处理算法的设计,实际上明显地受到人的听觉系统特性的启发。此外,人的词汇存取(lexical access,也就是人从心理词典中检索单词的过程)的四个特性在ASR中也是存在的,这四个特性是:频度(frequency)、平行性(parallelism)、邻近效应(neighborhood effect)和基于提示的处理(cue-based processing)。例如,与N元语言模型的ASR一样,人的词汇存取也是对单词频度敏感的。与低频度的口语单词相比,高频度的口语单词存取的速度比较快,或者存取时需要的信息比较少。在噪声环境下,或者在单词中只有局部部分呈现出来时,高频度的单词比低频度的单词更容易被成功识别。正如ASR一样,人的词汇存取是并行的:在同样的时刻可以激活多个单词。人对单词的存取还显示出邻接效应(一个单词的邻近词是一些与它类似的单词)。带有较高频度权值邻近词的单词,它的存取速度比那些邻近词比较少的单词慢一些。Jurafsky(1996)指出,存取时的邻近效应可以用ASR中的贝叶斯模型来解释。


最后,人的语音感知还是基于提示的(cue-based):语音输入要结合很多不同层次的提示来解释。例如,业已证明,人对于单个音子的感知要把许多不同的提示结合起来进行,包括声学提示,例如共振峰的结构或发音的确切时间,视觉提示,例如嘴唇的运动,词汇提示,例如音子所在单词的同一性。还有一个通常称为音位复原效应(phoneme restoration effect)的例子。Warren(1970)取一个语音样本并且在咳嗽声的背景下替换其中的一个音子(例如,替换legislature中的[s]这个音子)。Warren发现,受试者在听到这样的录制磁带时,在典型的情况下听到的仍然是包含[s]在内的整个单词legislature,而且还感觉到了咳嗽声背景的存在。在人的语音感知中,其他的提示还有语义方面的单词联想(word association)和重复优先(repetition priming)。所谓“单词联想”指的是,如果同时还听到一个语义上相关的词,单词的存取会比较快。所谓“重复优先”指的是,当再听刚才已听到的单词时,其存取速度会比较快。这两种与语义有关的研究结果,已经被应用于一些新近的语言模型中。例如,Kuhn and Mori(1990)的存储模型就使用了重复优先的原理;Rossenfeld(1996)的触发器模型,Coccaro and Jurafsky(1998)的LSA模型以及Bellegarda(1999)都使用了单词联想的原理。值得注意的是,这些卓越的思想绝不是现在才提出的,Cole and Rudnicky(1983)在他们一篇引人入胜的评述文章中指出,对于单词和音子处理的上下文效应这种深刻的关系,事实上早就被William Bagley(1901)发现了。Bagley的成就,除了单词和音子的上下文效应之外,还包括对于音位复原效应的早期研究,这些成果在爱迪生(Edison)留声机滚筒的录音中得到了应用,后来又进行过修改,并且把它们公之于众。Bagley的这些成果被遗忘了,很久以后才被再次发现。


现代ASR模型和人的语音识别之间的一个差别是ASR模型的时间导向性(time-course)。在执行ASR算法时,解码搜索的过程是在整个语段上进行优化的,这一点很重要。这意味着,解码器在句子的结尾时返回的最佳句子假设可能与在句子中途返回的当前最佳句子假设有很大的差别。与

此不同的是,有充分的证据表明,人的语音处理是在线的(on-line)。人们把一个语段一步步地切分成若干个单词,当他们听到相应单词的时候就指派给该单词一个解释,这个过程是递增进行的。例如,Marslen-Wilson(1973)曾经研究过所谓的“紧密背影”(close shadower):当人们听到一个语音片断时,会在250ms的短时间内留下该语音片断的背影(即向后重复)。Marslen-Wilson还发现,当这些背影出现错误时,它们会根据上下文,利用句法和语义特征来进行校正,在这250ms之内进行单词的切分、剖析以及解释。Cole(1973)和Cole and Jakimik(1980)发现,在关于错误发音检查的研究中也存在着类似的效应。在这些研究成果的基础上,学者们研制了一些关于人类语音感知的心理模型,例如队列模型和TRACE计算模型。TRACE计算模型重点研究了单词选择和切分的时间导向。例如,TRACE模型是一个连接主义的模型或者神经网络的交互式激活模型。在这个模型中,独立的计算单元被组织为三个平面:特征平面、音位平面和单词平面。每个单元表示关于它在输入中出现的一个假设。输入时,各个单元被并行地激活,单元之间的激活可以流动;不同平面的单元之间的连接是可激发的,而同一平面上的单元之间的连接是抑制的。所以,一个单词被激活之后,就可能稍微抑制所有其他单词的激活。


人的语音识别和机器的语音识别之间有相似性的,但它们之间还有很多差别。特别是,许多事实表明,很多其他方面的提示在人的语音识别中也在发挥作用,而且这样的提示也被成功地结合到ASR系统中。这些被忽视的提示中最重要的是韵律。这里我们只举一个简单的例子,Cutler and Norris(1988)和Cutler and Carter(1987)都注意到,英语多音节单词有很多词的“例”的重音都在开始的音节,因此在“矩阵切分策略”(metrical segmentation strategy,简称MSS)中提出把重音用来作为单词切分的一个提示。


责任编辑:admin


微信公众号

我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)