- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
我们采取了默认机制,所以IRREG-PRES特征只需要对不规则动词进行说明,规则动词的默认值设为“-”。我们还需要采取类似的二元特征来标识不规则的过去时态(IRREG-PAST,比如动词“saw”),还需要用这类特征将“en”的过去分词形式(EN-PASTPRT)和“ed”区分开来。这些特征对标准词法规则的应用进行了约束,而我们一般都会将不规则形式直接添加到词典中。语法1给出了一系列的规则,并通过使用这些特征派生不同的动词和名词形式。
语法1动词和名词常用后缀的一些词法规则
对于一个给定的大规模特征集合,编写词条的任务看上去异常困难。大部分系统都会提供一些机制来缓解这些问题。第一种技术就是允许特征被赋予默认值,这一点我们已经在前面提到过了。如果词条的某个特征取默认值时,默认机制允许该特征不出现在词条中。另一
个常用技术是允许在编写词典时定义多个特征集,在随后使用的时候,只需要用单个符号表示这个特征集,而不用将所有的特征一一罗列。以后,我们还会讨论其他一些技术方法,从而保证可以在特征层次结构中继承各种特征。
图1包含了一部小词典,它包含的很多词语在下面的例子中都会使用到。其中,包含了三个和“saw”有关的词条,“saw”可以当做名词和规则动词使用,同时它还是动词“see”的不规则过去时态。下面的例句分别对此进行解释。
图1 一部词典
The saw was broken. (这把锯坏了。)
Jack wanted me to saw the board in half. (Jack 想让我把这块板子锯成两半。)
I saw Jack eat the pizza. (我看见Jack 吃比萨。)
在语法1上采用任何一种句法分析算法,最后都可以生成派生词条。采用图1中的词典,根据语法1,我们可以派生出下列词语正确的语法成分:been,being,cries,cried,crying,dogs,saws (有两种解释),sawed,sawing,seen,seeing,seeds,wants,wanting和wanted。例如,词语“cries”可以转换为序列“cry+s”,根据规则1可以在词典中现在形式的基础上,最后生成现在时态的词条。
如果采用不同词条,依据不同的词法规则可以生成同一个词语,而该词语通常会有多种含义。例如,词语“saws”可以转换成序列“saw+s”,这时,它是一个复数名词(根据规则7和“saw”的第一个词条);“saws”也可能是动词“saw”第三人称单数条件下的现在时态(根据规则1和“saw”的第二个词条)。需要注意的是,“saw”的VFORM并不是基本形式,因此,规则1不能作用于它的第三个词条。
这种方法的成功之处在于它能够避免错误的派生过程。例如,把“seed”分析成动词“see”的过去时,就是一种错误的派生。如果后缀去除的有限状态转录机(FST)设计正确,这种错误分析是绝对不会出现的。具体来说,有限状态转录机不会允许动词“see”转移到能接受后缀“ed”的状态中去。即使由于某种原因,出现了这种情况,规则3同样不能使用,因为“see”词条的IRREG-PAST值为+。
责任编辑:admin