语音识别中的问题

发布时间： 2023-09-06 09:22:17 作者：etogether.net 来源：网络浏览次数：

摘要: 语音非常有效和方便，可以让你的双手自由地做其他工作，不过，直到最近，语音识别系统才做到足够准确和高速。

语音在人类交流模式中占支配地位。当然，书面语言是很重要的，很多知识都是以书面语言的形式一代一代地传下来的，但在日常的交流中，语音还是最主要的模式。很自然地可以假设语音也是人机交互的首选模式。语音非常有效和方便，可以让你的双手自由地做其他工作。不过，直到最近，语音识别系统才做到足够准确和高速，以支持有效的应用。随着新的识别技术的产生和更快速的计算机的出现，这种转变非常之快。

语音识别系统分为两类，分别是孤立词识别系统和连续语音识别系统。孤立词识别系统一次只识别一个单词。要使用这样一个系统，必须在单词之间有一个停顿。连续语音识别系统可以识别我们平常说话那样的语音，其中的单词在一个连续流中一起说出。目前，市场上大部分系统都使用孤立词识别技术。连续语音识别系统处于积极的开发之中，不过，已经很接近实际的应用。其他区分各种不同系统的主要因素是词汇量和能够处理的说话者的范围。一些低端系统可以识别单个用户的30个左右的单词，而高端系统能够识别多个说话者的20000个单词。当比较不同系统的识别率的时候，很重要的一点是要记住，要在大词汇量、多说话者的连续语音识别中达到很高的准确率是非常困难的。

虽然在口语和书面语言的处理中都可以使用一些相同的基本技术，如句法分析、语义解释和上下文解释，但还是存在一些显著的区别，会对这两种系统的设计发生影响。举例来说，对于口语输入，系统必须处理不确定性。在书面语言中，系统准确地知道要被处理的单词。而在口语中，用户说的是什么只是一个猜测。而且，口语在结构上和书面语很不相同。实际上，有时一份完全能够理解的语音的记录在阅读时却令人无法理解。口语的表现更增量化，每次一个短语，包含了书面语中所没有的丰富的语调信息。口语中还包含很多更正，说话者用来纠正或者修改他刚才说的话。更进一步，口语对话有丰富的表示认可或者确认的交互，以维持一次对话，而这些在书面形式中都不会出现。

口语理解系统的基本结构如图C.1所示，其中整个的自然语言系统都压缩到了一个框中。说话者发出的声音首选通过一个模拟/数字转换器转换成数字形式。这种信号通过处理抽取出各种特征，如在不同频率上的声音强度和随着时间流逝声音强度发生的变化。这些特征用

做语音识别系统的输入，语音识别系统一般都采用隐马尔可夫模型（HMM，Hidden Markov Model）技术来确定最有可能产生这种语音的词语序列。然后，语音识别器输出这种最可能的词语序列作为自然语言理解系统的输入。当自然语言系统需要产生一个语音的表示时，它将句子传递给一个将单词翻译成音素序列并决定语调轮廓的模块，然后将这些信息传递给一个语音合成系统，语音合成系统产生口语输出。

语音理解系统的结构.png

图C.1 语音理解系统的结构

责任编辑：admin

上一篇：语音识别和自然语言理解
下一篇：示例：分布式SVM的Pegasos算法

《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net，我们将及时沟通与处理。

评分：	1分 2分 3分 4分 5分
评论内容：
验证码：
【网友评论仅供其表达个人看法，并不表明本站同意其观点或证实其描述。】

语音识别中的问题

相关机器翻译技术文章

免费在线翻译

翻译机

外语书籍

行业文章

人工翻译