文摘就是按读者(或用户)的要求以简洁的形式表达原文的主要内容。显然,这里至少要涉及四个要素:用户的要求,原始文本的格式,原文的中心思想或关键内容,以及这些内容的简洁表达。实际上,文摘员手工编制文摘时一般都要经过以下的主要步骤:
(1)浏览全文,抓住文章的中心思想与关键内容;
(2)结合一般用户的要求,决定书写文摘的类型和需要突出的重点;
(3)用尽可能简洁流畅的语言,按一定的格式规范书写文摘;
(4)复核检查。
借鉴人类编制文摘的成功经验,计算机从原始文档出发进行自动文摘生成时,通常也要经过以下四个彼此相关的信息处理阶段(如图1 所示):
(1)原文分析(抽取原文内容信息);
(2)综合评判与识别(通过评判选出最重要的信息);
(3)浓缩(Condensation,对选出的部分作进一步的信息压缩);
(4)摘要生成(把浓缩后的信息按用户要求的格式表达出来)。
值得注意的是:为了信息处理与压缩的方便,一般在原文分析阶段常常要引入文本信息的某种中间表示,例如采用各种谓词逻辑表达式,框架脚本,还有“目标一规划”表示等等。
另外,图1的划分只是为了理解方便,各阶段都不是绝对的或者是独立的,每一阶段本身都可能包含有很多复杂的处理过程(如原文分析阶段),各部分之间也没有严格的处理顺序,有些处理过程是并行的。事实上,前三个阶段与自然语言理解、信息处理和压缩密切相关,而最后的文摘生成阶段则可以看成是自然语言的生成问题。所以整个摘要过程又可以简单地划分为自然语言理解与生成两个阶段。
图1 自动文摘过程
(1)原文的分析理解过程
尽管自动文摘是个复杂的过程,但一些简单的自动文摘方法在特定条件下依然能得到好的结果。例如米德数据中心(Mead Data Central)的Searchable Lead 系统只是简单地从原文开头连续取出若干句子作为文摘,当原文为新闻资料并限定文摘长度为60、150或250个左右的单词时,用户对文摘评价的“接受率”(Acceptability)竟然高达90%以上。尽管只对新闻风格的语料评测,但依然能说明排版信息(位置信息、标题信息等)的重要性,文本分析的第一步应首先提取排版信息。