会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    超值满减    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 机器翻译 > 正文

自动文摘的信息处理过程

发布时间: 2023-01-31 09:24:57   作者:etogether.net   来源: 网络   浏览次数:



为了弥补排版信息的不足,ANES系统对原文进行词频统计,识别关键词特别是指示词(Cue Phrase)等处理过程,并加入指代关系(Reference)的消解过程。然后,系统根据上面分析得到的几种信息对句子加权,并根据权重大小及一些启发规则摘取句子作为文摘输出。与Searchable Lead相比尽管只得到75%左右的接受率。但这种方法易于推广到不同的领域之中,并且也容易加入排版信息来提高性能。


除了识别关键词和指示词,解决指代关系,还可以采用各种NLP技术对原文进行更深层次的分析,例如进行词组或概念语义统计,作句法/语义分析,甚至进行各种篇章分析与理解(采用框架、脚本、规划等知识表示与处理技术),以便得到更多有关原文内容的信息,为了便于以后的处理,原文分析的结果常常采用某种中间表示。


原文分析与理解过程的下一步就是对第一阶段得到的各种信息进行综合评判,以便识别出其中最重要的部分。若以上信息采用较复杂的中间表示,则可能还要进行基于知识的各种推理过程。若中间表示为加上各种处理信息的原文句子,例如对于抽取句子的指示性文摘(见后面讨论)。则可以采用前面提到的Edmundson和Rush的各种摘句规则来选择文章的重要部分。显然,原文各部分的内容是否重要,这与用户的需求有很大关系。例如同一篇有关恐怖活动的新闻报道,有的用户关心恐怖分子的人数,有的则可能关心他们所要袭击的目标,甚至有的读者并不关心具体的事件而只对这篇报道的文学水平或写作技巧感兴趣。


浓缩阶段对所选出的内容作进一步的抽象(Abstraction)或概括,或者把各个部分集成(Aggregation)在一起,从而达到信息压缩的目的。例如最简单的集成办法就是把相对分散的内容重新组合并通过对比滤掉其中重复的部分。


(2)文摘生成过程

图中最后阶段是把浓缩后的关键信息(中间表示)以文本形式或用户要求的其他格式重新表达出来。这与自然语言生成的过程十分相似,同样有两个关键问题需要解决:一是如何满足用户需要从中间表示中选出特定的语义内容,即首先决定“要说什么”。二是如何用简洁的语句来表达所选出的内容,即解决“怎么说”的问题。当然,有的用户要求文摘输出为特定的非文本格式,如信息抽取中MUC类型的“模板”(Template)输出。这种情况下不存在自然语言文摘的生成问题。而对于直接从原文中摘取重要句子输出的自动文摘系统,由于中间表示一般是原文中不连贯的句子,所以文摘生成过程也只需要对这些句子进行简单的重排或润色即可。


在具体的应用场合中,图1 所示的系统可能有不同的原文输入格式,不同的处理要求,以及不同的文摘输出形式,所以自动文摘大致可以划分为以下几种类型:


① MUC格式的文摘:即参加ARPA支持的MUC会议评测的信息抽取系统便是这种类型的文摘,它只要求按固定的模板格式输出相关文本中的主要信息,如找出恐怖事件的参与者,受害人,时间,地点等。这种系统一般限于特定领域,偏重于对原文的分析与理解、重要信息的识别等过程,几乎不要求有文摘生成过程。


② 机械文摘:即指示性文摘,只要用适当的语句指明原文的主题范围及内容梗概。一般可机械摘取原文中现成的有关句子编辑而成。这里依然偏重于重要内容的识别过程。


③ 基于数据的文摘:即输入不是文本格式而是各种表格或实验数据(如数据库中的记录),要求对数据进行信息加工后以自然语言形式表达出来。这时主要偏重于信息的浓缩与自然语言的生成等问题。


④ 理解文摘:即报导性文摘,一般要求对原文作深入的语义理解,并在此基础上对原文作完整的浓缩。因此不仅要求系统有篇章理解的能力,而且还要求有自然语言生成的能力。由于篇章理解及自然语言生成的难度都非常大,所以这种类型的文摘目前只能限于极狭小的领域范围之内。


显然,自动文摘要同时解决自然语言理解及生成,文本信息的表示与压缩等复杂的问题,因而自动编写文摘的过程应当是极复杂的信息处理过程,这个领域目前还有许多难题有待更深入的研究:①能否通过纯语言学的方法来获得满意的文摘? ②如何对文摘的性能进行更有效的评估? ③进一步研究现有算法的组合,并从更长远的观点对它们加以改进,甚至提出全新的方法。


总之,建立实用的基于理解的自动文摘系统还有相当长的路程要走。限于现有的技术条件,对真实文本的处理相对容易实现的还是特定领域的信息抽取(MUC格式的文摘)与非受限领域的机械文摘。


责任编辑:admin


微信公众号

[上一页][1] [2] 【欢迎大家踊跃评论】
  • 上一篇:自动文摘的评估
  • 下一篇:信息检索技术简介


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评论列表
已有 0 条评论(查看更多评论)