语音识别和自然语言理解

发布时间： 2023-09-11 09:24:25 作者：etogether.net 来源：网络浏览次数：

摘要: 语音系统目前很好地集成了二元语法模型、词模型和音素模型，因为它们都可以用同一个框架来表示，即隐马尔可夫模型。

用二元词语法对语音识别系统加以改进可以显著地提高系统的性能。这启发我们，如果采用一个更加全面而详尽的模型，会产生更好的结果。不过，实际上，这是很难做到的。可以使用三元词语法，但是这需要多得多的数据。直接集成一个概率上下文无关语法也会带来困难。首先，语音系统目前很好地集成了二元语法模型、词模型和音素模型，因为它们都可以用同一个框架来表示，即隐马尔可夫模型。引入上下文无关语法机制作为句法部件难于进行有效的集成，并且会对识别的准确率或者有效性造成负面的影响。其结果是，所有现有的口语理解系统都在语音识别和自然语言理解系统之间维持一个严格的分界，如图C.1所示。

图C.1.png

图C.1语音理解系统的结构

按照这种划分，在设计接口的时候还是有很多种做法的。最简单的接口，也是最常用的，就是语音识别输出所找到的单一的最佳单词序列。然后，语言处理系统在这个基础上进行处理，并期望没有严重的识别错误。将这种做法更一般化的一种方法称为N-best方法，在N-best方法中，语音识别输出它所找到的N个最佳序列。这允许句法分析器在第一个结果失败时尝试其他解释。虽然很多系统都具有使用N-best方法的能力，不过实践证明这只是使得准确率略微有所提高，但比起由此导致的额外的处理开销来说，这样做并不值得。其中的一个原因是，N个最佳的序列本质上是相同的，只在一到两个单词上有区别。这样，如果语音识别系统识别错了某一个特定的单词，将很有可能在输出的N个最佳选择中都有同样的错误。

取代N-best的一种有趣的方法是输出词格。在这种方法中，语音识别系统输出一个格子，这个格子给出了输入中最可能的单词。一个词格给出了提供一种大量可能句子的压缩表示形式，并为基于句法分析器和语义解释的错误恢复提供了一个表达能力足够丰富的环境。注意，你可以将词格看做chant句法分析器的初始线图。在某个位置出现某个单词有多种选择这一事实对基本的句法分析算法没有影响。

这种通用技术目前还没有被充分研究，因为目前的系统大多都使用高度领域化的技术来优化其短期性能。举例来说，在航空旅行信息系统(ATIS，Air Travel Information System)领域中开发了多个不同的口语理解系统，这些系统基于航空时刻表来回答问题。因为这个应用领域非常集中而且狭窄，所以第11章描述的特定领域的解释技术可以用于正确地解释一个查询，即使其中的一部分被错误地识别也没有太大的影响。研究者发现，在短期内改进特定领域解释的启发式方法比探索语音识别和自然语言处理系统之间更通用、更健壮的接口来得更有效。当应用变得更为复杂时，这种现状应该会有所改变。

即使在给定受限领域的情况下，ATIS领域的系统性能也给人以深刻的影响。一般而言，一个典型的ATIS系统包括大约2000个单词，独立于说话者，使用标准的不带特殊信号处理硬件的标准工作站完成语音识别任务时几乎没有可察觉的延迟。系统使用一个包含数百个事先没有见过的查询语句的集合进行测试。1993年，最好的语音识别系统达到了95%的单词准确率。总体最好的系统对于88%的查询语句可以产生合适的回答。

责任编辑：admin

《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题，烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net，我们将及时沟通与处理。

评分：	1分 2分 3分 4分 5分
评论内容：
验证码：
【网友评论仅供其表达个人看法，并不表明本站同意其观点或证实其描述。】

语音识别和自然语言理解

相关机器翻译技术文章

免费在线翻译

翻译机

外语书籍

行业文章

人工翻译