会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

发音变异的决策树模型

发布时间: 2022-07-04 09:20:30   作者:etogether.net   来源: 网络   浏览次数:
摘要: 决策树只提取相关的特征,所以数据稀疏问题比含混矩阵少一些,因为含混矩阵要以每个相邻的音子作为条件。


使用概率来模拟发音变异可以增强手写规则的效率。Riley(1991)和Withgott and Chen(1993) 提出了另一种手工书写规则的方法,这种方法被证明是很有用的。这种方法使用决策树(decision tree),特别是使用一种分类回归树(Classification and Regression Tree,简称CART),从标注语料库中自动推导出词汇到表层发音的映射关系(Breiman et al.,1984)。决策树提取由特征集所描述的情况,并把这种情况分类为范畴和相关的概率。在发音问题研究中,可以训练决策树来提取一个词汇音子和它的各种上下文特征(包围的音子、重音、音节结构信息以及词汇的等同性),并选择一个适合的表层音子来实现它。我们可以把在前面的错拼更正中使用的含混矩阵看成是一种蜕化的决策树,因此替代矩阵取一个词汇音子作为输入,然后输出在潜在的表层音子中的一个概率分布来替代这个词汇音子。决策树的优点是它可以从标注语料库中自动推导出来,而且都很精确。决策树只提取相关的特征,所以数据稀疏问题比含混矩阵少一些,因为含混矩阵要以每个相邻的音子作为条件。


例如,图1是根据Switchboard语料库得出的关于音位/t/发音的一个决策树。这个决策树不包括闪音化(闪音化由另外的决策树来描述),但是它模拟/t/在辅音前比在元音前更可能脱落的事实。注意,实际上这个决策树自动推导出了元音类和辅音类。另外还要注意,如果/t/没有在一个辅音前面脱落,它就很可能是没有除阻的。最后还要注意,/t/很容易在音节头的位置脱落。


对于发音的决策树模型有兴趣的读者,可以参阅Riley(1991)和Withgott and Chen(1993),也可以参阅关于决策树的导论性教材,如Russell and Norvig(1995)。


1.png

图1 


图1 根据Switchboard语料库得出的关于音位/t/发音的经过手工修剪的决策树(由Eric Fosler-Lussier提供)。这个特殊的决策树没有模拟闪音化,因为闪音已经在词典中列出了。这个决策树能够自动推导出元音和辅音范畴。我们在每个叶子结点上只列出了最可能的实现情况。


责任编辑:admin


微信公众号

我来说两句
评论列表
已有 0 条评论(查看更多评论)