会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

信息抽取的方式

发布时间: 2022-08-16 09:23:02   作者:etogether.net   来源: 网络   浏览次数:


许多系统的全部或大部分层次都是基于有限自动机来设计的,尽管在实践中因为单个自动机通过特征记录得以加强(例如在FASTUS系统中),或因为自动机只是作为完整剖析器的一个预处理阶段,例如(Gaizauskas et al.,1995;Weischedel,1995),或因为自动机与其他组件通过决策树相结合(Fisher et al.,1995),所以从技术上看大多数完整的系统并不是有限状态的。


图1.png


图1 FASTUS(Hobbs et al.,1997)信息抽取引擎对例句生成的模板



图2.png


图2 FASTUS(Hobbs et al..1997)中的处理层次。每个层面抽取一种特定的信息,并将这类信息传送给较高的层次



下面让我们跟随文献Hobbs et al.(1997)和Appelt et al.(1995)来概略了解一下FASTUS系统每个层次的具体实现。在词例还原以后,第二阶段识别像set up和joint venture这样的多词单元和Bridgestone Sports Co.这样的名称。名称识别器是一个转录机,该转录机由大规模的特定映射集组成,以便于处理地名、人名、组织名、公司名、联盟名和演出团体名等名称。下面给出的是为获取像San Francisco Symphony Orchestra和Canadian Opera Company 这样的演出组织名称而设计的典型规则。虽然这些规则是由上下文无关语法写成的,因为不存在递归,所以这些规则可以自动编译为有限状态转录机:


Performer-Org → (pre-location) Performer-Noun+ Perf-Org-Suffix

pre-location → locname I nationality

locname →  city I region

Perf-Org-Suffix → orchestra, company

Performer-Noun → symphony, opera

nationality → Canadian, American, Mexican

city → San Francisco, London


在第二阶段也可以将forty two这样的序列转录为正确的数值。

FASTUS系统的第三个阶段利用有限状态规则生成了一系列基本短语,比如名词词组、动词词组等。图3给出了FASTUS的基本名词短语识别器的输出结果。注意,其中使用了一些特定领域的基本名词短语,比如Company和Location。


图3.png


图3 利用Appelt and Israle(1997)中描述的有限状态规则,FASTUS的基本短语识别器在第二阶段所获得的输出结果



如何将这些基本短语组合成复杂的名词词组和动词词组?这是在FASTUS的第四个阶段,通过处理下面的连词和数量短语:


20,000 iron and "metal wood" clubs a month, 


以及介词短语:


production of 20,000 iron and "metal wood" clubs a month,


而实现的。第四个阶段的输出是一个复杂的名词词组和动词词组的列表。在第五个阶段,我们利用这个列表,忽略所有没能形成复杂词组的文本,识别复杂词组中的实体和事件,并将这些识别出的客体插入正确的模板。实体和事件的识别是通过手工编写的有限状态自动机实现的,这些自动机的转移基于特定的复杂短语类型,而这些复杂短语类型是通过特定的中心词或特定特征,比如company,currency或date来标注的。


例如,上面给出的新闻中的第一个句子通过下面的两个正则表达式来生成语义模式(其中,NG表示Noun-Group,VG表示Verb-Group):


● NG (Company/ies) VG(Set-up) NG(Joint-Venture) with NG(Company/ies)

● VG (Produce) NG(Product)


对于第二个句子,除了生成上述的第二个模式以外,还生成了下面的两个模式:


● NG (Company) VG-Passive (Capitalized) at NG(Currency)

● NG (Company ) VG (Start) NG(Activity) in/on NG(Date)


图4中给出的是这两个句子的处理结果:5个初步的模板的集合。然后这5个模板必须合并成图15.7所示的单一层次结构。合并算法决定是否两个行为(activity)或关系(relationship)的结构一致到足以认定它们所描述的是同一事件,如果是同一事件,就并合它们。因为合并算法必须首先实现指代消解(确定什么情况下两个描述所指的是相同的事件)。


图4.png


图4 FASTUS系统的第五阶段产生的5个局部的模板。这些模板将通过第六阶段的合并算法生成图1所示的最后的模板



责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:WORDNET:词汇关系信息库
  • 下一篇:鲁棒的语义语法


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)