会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

机器翻译技术方法的简单介绍

发布时间: 2016-03-15 18:14:10   作者:etogether.net   来源: 网络   浏览次数:
摘要: 机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。
 
机器翻译
 
 
人们一直在寻求更好的解决问题的方法,目前机器翻译方法主要有基于规则的机器翻译,基于语料库的机器翻译和混合式机器翻译方法。
1基于规则的机器翻译方法
1.1基于分析和转换的机器翻译方法
人作翻译时,把一个源语言句子译成目标语言句子,设计到四个基本操作:目标语言单词的检索、调序、删词、增词;机器翻译系统的过程包括检索、分析、转换和生成主要四个阶段,这被称为基于分析和转换的机器翻译系统,也被认为是模拟人类翻译活动最恰当的机制。
该方法有三个阶段,为分析—转换—生成。一般情况下,分析以句法为主、语义为辅,正确的句法结构转换加正确的词汇译文可以从源语言向目标语言传递完整的正确信息。以句法结构转换附加一定的语义信息, 能够构成转换的基本层次[3]。标准机器翻译系统中句子和短语层次的结构转换是核心,产生式方式的转换规则形式为:
S:S1+S2+•••Si
S是源语言的某个待翻译单位(句子、短语等等),S1~Si是S中的下一级组成单位对于S,如果满足条件
上述方法称为基于句法的转换方法, 因为S1+S2+•••Si一般来说就是源语言的的句法结构表示:也可以称为直接转换方法, 因为对于每个源语言的翻译组块, 都马上给出一个目标语言组块与之对应应该说, 这种转换方法符合人的直觉认识, 也能够实现。
 
1.2基于中间语言的机器翻译方法
基于中间语言的翻译方法是对源语言进行分析以后产生一种称为中间语言的表示形式,然后直接由这种中间语言的表示形式生成目标语言。所谓中间语言就是自然语言的计算机表示形式的系统化, 它试图创造出一种独立于各种自然语言,同时又能表示各种自然语言的人工语言。
基于中间语言的机器翻译方法的优势是无需一种语言到另一种
语言的一一转换,对于多语种的翻译系统可以节约大量的转换知识的手工获取工作量,假如有N种语对需要相互翻译, 只要有2N个分析和生成模块就够了。其中一半是源语言分析模块,输入为原文,输出以1L表示:另一半是目标语言生成模块,输入为1L表示,输出为目标语言译文。然而,中间语言的机器翻译方法也常遭到怀疑。因为是否能够构造出表示各种不同的自然语言语法、语义的中间语言至少目前还是未知数。此外,中间语言能不能把各种语言的所有特征保留下来,又能很好生成对应的各种语言也是问题。所以,构造中间语言是一个巨大、复杂的工程,还包含许多理论研究,迄今为止的探索还没有好的答案[3]。
基于转换的方法采取了一系列转换生成层次,各种分析多(如词法、句法、语义和语境等),而且在分析的过程中,会出现许多歧义结构,显然,如果没有好的算法,效率就会低;此外,对于那些不符合语法规则的句子,这种方法难于给出正确的翻译结果。
 
2基于语料库的机器翻译方法
2.1基于统计的机器翻译方法
基于统计的机器翻译方法,一般不要任何语言学知识,它的基本原理是实现源语言词汇到目标语言词汇的映射。其思路受到语音识别研究的启发,因而应用了类似的方法来实现。研究者用大规模的双语语料库作为基础,对源语言和目标语言词汇的对应关系进行统计,根据统计规律输出译文。这种方法没有使用语言知识,主要特征是概率噪声信道统计与随机过程的方法成为了分析和生成过程的唯一方法。它的主要内容是双语句对的对齐,通过词汇同现的可能性来计算一种语言的一个词映射到另一种语言的一个词(或两个、零个词)的概率。应该说,基于统计的机器翻译方法的出现改变了机器翻译研究的面貌, 从而开始了机器翻译研究的新阶段。
统计方法最先在语音识别领域取得了成功,机器翻译的噪声通道模型可以视作最早的机器翻译思想, 其思路可以这样理解:
目标语言句子源语言句子
假设说话者已经用目标语想好了一句话T,但是说出的却是源语言句子S。这样一个过程可以看成为编码过程。而统计的机器翻译就是要从S回推T, 可以看成解码过程。这样,统计的机器翻译任务分为两个部分:一是建模,即建立翻译的计算方法以及从双语语料库中估计模型的参数;二是解码,即寻求一种高效搜索算法取有关概率计算的最大值。
基于统计的方法以大规模的双语语料库为基础,需要训练,一般翻译速度比较慢;而且它还有被怀疑之处——这种方法会不会由于本身的固有属性,不可能有很高的译文正确率。但基于统计的机器翻译方法还是具有很多优势,如开发速度快、周期短、无需人工干预等,在特定领域训练数据充分的情况下翻译性能基本可以达到实用水平。
2.2基于实例的机器翻译方法
基于实例的机器翻译方法通过结构化的翻译例子直接把源语言的短语和句子与目标语言的短语和句子对应起来,方法的不同使得处理步骤或多或少,但都必须实现源语言到目标语言的转换,其映射关系或者是词到词,或者是短语或句子到与之相应的等价物,或者是一棵句法树到另一棵句法树[4]。
基于实例的机器翻译(EBMT)的实现过程简单概述如下:给定源语言输入句子S,在双语语料库C中匹配查找一个最相近的句子S’,则S’的译文就被接受为S的译文。翻译的过程一般就是查找和复现相似的例子,发现和记起特定的源语言表达或相似的表达在以前是如何翻译的,把以前的翻译实例作为主要知识源。
3混合式机器翻译方法
基于混合式的机器翻译方法能够很好的利用两种方法的优点,目前非常盛行。混合式机器翻译方法是将基于规则的翻译方法和基于统计的翻译方法结合。在基于规则的技术中引入语料库方法,其中有基于实例的方法、统计方法,通过对语料库的预处理使其转化为自然语言知识库的方法。Rules post-processed by statistics统计方法做后处理,翻译使用规则方法。Statistics guided by rules使用规则方法做前后处理,翻译使用统计方法。
混合式机器翻译方法是效果最好的,但目前混合方法中各种模型的耦合方式还比较松散,进行多翻译模型的深度融合可能是未来研究的一个热点。Google已经利用深度学习技术提升了旗下多个产品的智能体验,该技术藉由大量的数据来训练神经网络,从而对新数据做出预测。Google翻译也将开始引入这一深度学习技术,以提高用户的翻译体验。
微信公众号

  • 上一篇:主流CAT 内置的机器翻译支持比较
  • 下一篇:没有了


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)