会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

语音识别系统的训练

发布时间: 2022-07-20 09:25:20   作者:etogether.net   来源: 网络   浏览次数:
摘要: 为了训练一个基本的语音识别系统,我们需要的概率模型共有4个。


我们已经知道了怎样建立一个Viterbi解码器,Viterbi解码器怎样采用三个输入(观察概率、HMM词表和N元语法的语言模型),并产生出概率最大的单词符号串。其中,观察概率是通过高斯估计或MLP估计从声谱特征得到的。但是,我们还不知道怎样来训练概率模型,以建立一个语音识别系统。


此文将扼要地介绍大多数ASR系统使用的嵌入训练(embedded training)过程,不考虑这些系统是基于高斯模型的,基于MLP的,还是基于矢量量化的。首先,为了训练一个基本的语音识别系统,我们需要的概率模型共有4个:


● 语言模型概率 P(WilWi-1,Wi-2)

● 观察似然度 bj(Ot

● 转移概率 aij

● 发音词表 HMM状态图结构


为了训练语音识别系统中的这些组成部分,一般来说需要有:


● 一个带有单词转写的语音声波文件的训练语料库

● 一个用于训练语言模型的大规模文本语料库,这个语料库中应该包含来自语音语料库的单词转写以及其他许多类似的文本

● 通常还需要一个小规模的、用于训练的语音语料库,这个语料库要有语音标记(也就是说,声学信号的框架要手工进行音位标注)


让我们从N元语法的语言模型开始。对大规模语料库中N元语法的出现单位进行计数,然后对这些计数进行平滑化和归一化。用于训练语言模型的语料库一般比用于训练HMM参数a和b的语料库的规模大得多。这是因为,训练语料库越大,模型的精确度越高。由于N元语法模型训练起来比训练HMM观察概率快,又由于文本需要的空间比语音需要的空间少,实践证明,使用5000万单词的大型语料库来训练语言模型是可行的。在一般情况下,用于训练HMM参数的语料库也是语言模型数据的一部分;重要的是保持声学模型和语言模型的一致性。



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
  • 上一篇:人的语音识别
  • 下一篇:声学概率的计算


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)