返回

机翻技术

搜索 导航
超值满减
简单的上下文相关最佳优先句法分析器
2023-05-04 09:32:01    etogether.net    网络    



图3.png



图4.png

图4 VP“put the bird in the house”的chart图



图5.png

图5 VP“likes the bid in the house”的chart图


采用适当的上下文信息之后,人们会提出一个问题,即改进后的句法分析器的准确率又如何呢?它能取得66%的准确率,与其他策略相比,效果确实很好。但是,在PP附着选择上,仍然存在33%的错误率。那么,还需要另外增加什么样的信息来提高性能呢?显然,在规则的开始部分,可以采用二元或者三元语法模型,这样就可以将规则概率与输入的较大片段联系起来。如果存在足够多的训练数据,或许可以帮助我们进行最后的选择判断。


附着关系选择不仅依赖于动词,也依赖于PP中的介词。根据规则VP→V NP PP中的前一个语法类、中心动词和介词,可以设计出更复杂的评估体系。这要求我们准备更多的数据来获取可靠的概率统计,不过,这也会让可信度显著提高。然而,其中的困难是现在不能轻易地在规则中进行比较。规则VP→V NP PP可以采用动词和介词来评估,但是,规则VP→V NP缺少相应的介词。因此,还需要设计一个更复杂的评估测试办法。


一般来说,如果有足够的数据,词类的区分性越好,估计值的预测结果就会越准确。前面我们也提到了基于词语的统计需要大量的数据,但是,是否存在一部分词语可以单独处理并能取得更好的效果呢?当然,一些类似于介词这样的功能词好像比较适合于单独处理。这些词语的数目是固定的,它们对句子结构的分析有比较大的影响。类似地,其他一些封闭型的词语都可以单独处理,而不要作为同一个词类进行处理,这些词类有冠词、数词和连词等。可以合理地做出假设:我们能获取这些词的足够数据,并做出可靠的估计。


开放型词语则要复杂得多。例如,在数据约束方面,动词和名词扮演着关键的角色。但是,这些词实在是太多了,不可能都单独加以考虑。其中一个办法是只对那些常用的词语进行单独处理,处理方法和我们刚刚介绍的相同。另外一个办法是按照词语的相似性对它们聚类。聚类可以根据语义属性手工实现。比如,从本质上看,所有描述动作的动词可能具备相同的行为特征,因此可以将它们聚成同一个类。另外一种可选的方式是分析存在附着歧义的句子语料库,采用自动的技术方法学习有用的类别。


责任编辑:admin



[上一页][1] [2] 【欢迎大家踊跃评论】

上一篇:语义和逻辑形式简介
下一篇:最佳优先句法分析

微信公众号搜索“译员”关注我们,每天为您推送翻译理论和技巧,外语学习及翻译招聘信息。

  相关机器翻译技术文章




PC版首页 -关于我们 -联系我们