- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
在自然语言处理的应用,比如问答系统中,对每个输入句子给出一个合理理解是非常重要的,因为提供给用户的错误回答可能导致严重的后果。对于这类应用,面向语义的规则对规则(rule-to-rule)方法是建立对输入句子的彻底理解的一个很好的方法。
然而,其他的应用,比如从商业新闻中抽取合资企业的信息,理解天气预报,或从收音机报道的今天的股票行情中进行简单信息的摘要,都不是特别需要这种细致的理解。这种信息抽取(information extraction)的应用具有两个特点:一方面想获取的知识可以通过相对简单和固定的模板,或带有槽的框架(这些槽需要由文本中的素材来填充)来进行描述;另一方面文本中只有一小部分信息需要填入模板或框架,其他的都可以被忽略。
方法论探讨:信息抽取系统的评测
典型的信息抽取系统与信息检索系统有许多共同点,因此根据信息检索改编了几个标准评价矩阵,包括精度(precision),召回率(recall),误识率(fallout)以及结合矩阵F系数(F-measure)。召回率是对系统从文本中抽取了多少相关信息进行度量的系数。因此,它是对系统的覆盖面(coverage)的度量。召回率由下面的公式定义:
系统所给出的正确的答案数
召回率= ------------------------------
文中可能正确的答案的总数
精度是对系统返回的信息中有多少是真正正确的进行度量的系数,又称为正确度(accuracy)。精度由下面的公式定义:
系统所给出的正确的答案数
精度= ------------------------------
系统给出的答案数
误识率是对系统忽略文中错误信息的能力进行度量的系数,它的定义如下:
系统所给出的不正确答案数
误识率= ------------------------------
文中不正确的答案数
注意精度和召回率是相反的,对于保持不变的系统,如果追求高精度,就必然带来召回率的降低。类似地,追求系统的高覆盖率,就将带来更多的错误,造成精度的降低。这导致人们使用精度和召回率相结合的度量系数,即F系数。在F系数中,利用参数β来平衡精度和召回率。F系数由下面的公式定义:
(β²+1) PR
F= ------------------
β²P+R
当β等于1时,表示给精度和召回率相同的权重。当β大于1时,表示偏爱精度而当β小于1时,表示偏爱召回率。
例如,第五届信息理解会议(Message Understanding Conference,简称MUC-5(Sundheim,1993),是由美国政府组织的信息抽取会议)中的一项任务就是从商业新闻中抽取国际合资企业的信息。下面是取自文献Grishman and Sundheim(1995)的样例中的两个句子:
bridgestone Sports Co. said Friday it has set up a joint venture in Taiwan with a local concern and a Japanese trading house to produce golf clubs to be shipped to Japan.
The joint venture, Bridgestone Sports Taiwan Co., capitalized at 20 million new Taiwan dollars, will start production in January 1990 with production of 20,000 iron and "metal wood" clubs a month.
信息抽取系统的输出可以是带有几个填充槽的单一模板,也可以是较复杂的分层次关联起来的客体。MUC-5的任务指定后者,即较复杂的输出,要求系统能够生成分层次关联的描述合资企业合伙人、合资公司以及相关的行为、所有权和资金的模板。在图1中给出了FASTUS(Hobbs et al.,1997)系统生成的模板结构。
许多信息抽取系统是根据层叠式有限状态机设计的。例如,FASTUS系统所生成的上述模板就是基于层叠的方式的,语言处理的每个层面抽取文本中的一些信息,并将这些信息传送给较高层次的语言处理,如图2所示。