会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 术语相关 > 正文

N元语法及其对训练语料库的敏感性

发布时间: 2022-07-13 09:22:30   作者:etogether.net   来源: 网络   浏览次数:


4. 用四元语法来逼近莎士比亚

(a) King Henry. What! I will go seek the traitor Gloucester. Exeunt some of the watch. A great banquet serv'd in;

(b) Will you not tell me who I am?

(c) It cannot be but so.

(d) Indeed the short and the long. Marry, 'tis a noble Lepidus.

(e) They say all lovers swear more performance than they are wont to keep obliged faith unforfeited!

(f) Enter Leonato's brother Antonio, and the rest, but seek the weary beds of people sick.


训练模型的上下文越长,句子的连贯性越好。在一元语法生成的句子中,单词与单词之间没有接应和连贯关系。我们可以看到,在一元语法生成的句子中,没有一个句子是以句号或其他可以作为句末标点的符号结尾的。在二元语法生成的句子中,单词与单词之间只存在着非常局部的接应和连贯关系。三元语法和四元语法生成的句子,看起来已经似乎是莎士比亚的句子了。当然,仔细地查看一下四元语法生成的句子,可以看出它们更像莎士比亚的句子。It cannot be but so这几个词,就是直接从King John那里来的。这是因为,尽管莎士比亚的著作有很多不同的标准版本,但是其总词数不会多于100万单词。前面说过,Kucera (1992)曾经计算过莎士比亚全集的词数,出现单词数为884647个(“例”),不同单词数为29066个(“型”,包括专有名词)。这意味着,即使是二元语法模型,其数据也非常稀疏;从29066个不同的单词(“型”)可以形成290662个,即84400万个以上的二元语法关系。在这种情况下,用1 000 000单词的训练集来估计那些不常见单词的频度,显然非常不充分。实际上,在莎士比亚著作中,不同的二元关系类型不会超过300000个。莎士比亚著作的规模如果用来训练四元语法那就更小了,因此我们的生成系统对于前面头4个词的四元语法(It cannot be but),下面可能接续的单词只有5个(that,I,he,thou和so);对于很多包含4个单词的四元语法,它们的接续单词都只有1个。


为了研究语法对于它的训练集的依赖关系,我们用一个完全不同的语料库来训练N元语法。这个语料库是华尔街日报语料库(Wall Street Journal,简称WSJ)。一个以英语为母语的人能够读莎士比亚和华尔街日报,两者都是英语的一个子集。从直觉上来说,我们也许会觉得莎士比亚的N元语法将会与华尔街日报的N元语法互相重叠,彼此覆盖。为了检验这种感觉是否正确,这里有三个句子,是根据每天从华尔街日报文章的4000万单词的语料库中训练出来的一元语法、二元语法和三元语法生成的。这些语法是经过Good-Turing平滑的Katz回退语法(Katz backoff grammar)。在下面生成的句子中,为了便于阅读,我们用手工把英语的专有名词的首字母改为了大写字母。


1. ( 一元语法)Months the my and issue of year foreign new exchange's september were recession exchange new endorsed a acquire to six executives

2. (二元语法) Last December through the way to preserve the Hudson corporation N.B.E.C.Taylor would seem to complete the major central planners one point five percent of U. S. E. has already old M. X. corporation of living on information such as more frequently fishing to keep her

3. ( 三元语法)They also point to ninety nine point six billion dollars from two hundred four oh six three percent of the rates of interest stores as Mexico and Brazil on market conditions


把这些句子与前面那些所谓莎士比亚的句子相比较;表面上看来,二者似乎都想模拟“像英语的句子”,但显而易见的是,二者的句子之间没有重叠覆盖的现象。即使在一个很小的短语中出现重叠覆盖,这种重叠和覆盖也非常小。莎士比亚语料库和华尔街日报语料库之间的这种差异告诉我们,为了很好地在统计上逼近英语,需要一个规模很大的语料库,这个语料库应该包容不同的种类,并且覆盖不同的领域。尽管这样,像N元语法这样的简单统计模型也没有能力模拟不同种类的不同风格。当我们阅读莎士比亚的著作时,只想看见莎士比亚的句子,而思想不会跳到华尔街日报文章中去。


责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)