- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
(4)由较窄的领域到很宽的领域:以往的系统往往只能针对某一较窄的领域,例如只适合分析去饭店的场景对话等。而现在的系统则可适用于很宽的领域,甚至是与领域无关的,即系统工作时并不需要用到与特定领域有关的领域知识。
(5)由学院式评价到性能评价:对系统的评价不再是只用少量几个人为设计的典型例子,而是根据系统的应用要求,用真实文本进行较大规模的、客观的、定量的评价。不仅要注意系统的质量,同时也要注意系统的处理速度。
(6)由“故事”到新闻报道:这是针对自然语言处理研究的历史的。历史上曾有许多工作讨论如何深入理解短故事(包括故事中出现的人物,他们的意图等)。现在的系统则要求能分析新闻报道中的多种短消息和长故事。
(7)由原始文章到“排版过的”文章:以前的系统处理的文本一般是“纯”文本,不包含任何“排版”信息,而现在由于要求处理真实文本,而且许多这类文本都是经由字处理系统或排版系统处理过的,因而含有相应的排版信息,就自然提出了这种要求。
同时,由于强调了“大规模”,强调了“真实文本”,下面两方面的基础性工作也得到了重视和加强。
(1)大规模真实语料库的研制。大规模的经过不同深度加工的真实文本的语料库,是研究自然语言统计性质的基础。没有它们,统计方法只能是无源之水。
(2)大规模、信息丰富的词典的编制工作。规模为几万,十几万,甚至几十万词,含有丰富的信息(如包含词的搭配信息)的计算机可用词典对自然语言处理的重要性是很明显的。这一点在介绍歧义性的过程中就可以看得很清楚了。
责任编辑:admin