近年来,无论是在语言信息处理领域还是语言学研究领域,语料库的重要作用均已经得到充分的认可,国际国内在语料库的建设和研究方面均做了大量的工作。下面是几个双语语料库几个典型应用领域。
(1)语言信息处理的需求
首先,双语语料库是语言信息处理研究的重要基础资源。机器翻译或机器辅助翻译是计算语言学的一个重要研究领域,市场上又出现了以翻译存储(TM)技术为核心技术的产品本地化翻译辅助系统和基于模板的翻译技术,所有这些翻译技术都以双语或多语语料库为基础资源。在这些方法中,对齐的双语语料库或作为翻译资源直接使用,或用作翻译统计建模的训练资源。
(2)语言教学和双语对比研究
双语语料库构建也是语言教学和研究的基础资源。双语语料库在语言教学中使用,通常需要有配套的软件工具,最主要的即为语料库相关集列工具。利用双语语料库相关工具,教授语言的教师和学习语言的学生均可获得很大的帮助。以外语学习为例,经验表明,仅仅学习语法和词汇很难达到学好外语的效果。理想的学习方法是在语境中掌握词汇和句法知识。词典不能提供足够的语境知识,也很难列举大量真实语言材料。利用双语语料结合相关集列工具,学生可以在查询的基础上在语境中把握特定词和结构的意义和句法特征,也可以建立使用词汇的语境知识,更重要的是,双语语料库还有助于学生在学习语言时观察两种语言在表述上的不同,通过对比减轻母语对外语学习的影响。
(3)双语词典编纂的需求
语料库尤其是单语语料库在词典编纂中的应用已不是特别新鲜的话题,大规模语料库在英美等国已成为词典编撰的前提和主要工具。代表性的工作是基于COBUILD 英语语料库而编成的一系列英语词典和英语句法学习书籍,这些词典和句法参考书已成为英语学习的重要参考资源。对于双语词典,国内出版社传统策略是采用引进并翻译的方法,双语词典的质量不能尽如人意。在双语语料库相关集列等语料库工具的支持下,双语语料库同样可以在提高辞书编纂质量和节省词典编纂时间方面发挥重要作用,双语语料库可以为许多词典编纂决策提供客观依据,是否收入一个词条、词条义项如何排列取决于词汇在语料库中的使用,而且双语语料库也为词典用例选择提供了源泉,词书编纂人员可以从语料库中选择有代表性的高频用例,从更深的层次看,基于双语语料编纂双语词典改变了词典编纂的理念,词条中所包含的意义、句法信息都应该得到真实语料库的验证,所有信息都是可靠的和准确的。