- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
大约90年代开始,自然语言处理领域发生了巨大的变化。这种变化的两个明显的特征是:
(1)对系统输入,要求研制的自然语言处理系统能处理大规模的真实文本,而不是如以前的研究性系统那样,只能处理很少的词条和典型句子。只有这样,研制的系统才有真正的实用价值。
(2)对系统的输出,鉴于真实地理解自然语言是十分困难的,对系统并不要求能对自然语言文本进行深层的理解,但要能从中抽取有用的信息。例如,对自然语言文本进行自动地提取索引词,过滤,检索,自动提取重要信息,进行自动摘要等等。
而更进一步将上述特征,细化成如下几种特征:
(1)由句子到文章:以往的自然语言处理系统多数都是只用细心选择过的少量例句来进行实验,而现在要处理数以百万计的真实的文本(即报纸等多种出版物上直接收录的文本)。这种处理深度虽然不够,但针对特定的任务还是有实用价值的。
(2)由完全的语法分析到部分语法分析:由于真实文本的复杂性(其中甚至有不合语法的句子),对所有句子都要求完全的语法分析几乎是不可能的。同时,由于具体文章数量极大,还有处理速度方面的要求,因此,目前的多数系统往往不要求进行完全的分析,而只进行必要的部分分析。
(3)由语言学到统计学:从方法上说,以往的系统主要依赖语言学的理论和方法,而新研制的系统同时还依赖于对大量文本的统计性质分析。统计学的方法在新研制的系统中起了很大作用。