- 签证留学 |
- 笔译 |
- 口译
- 求职 |
- 日/韩语 |
- 德语
如图1所示,在语法分析过程中,分析词典是知识库的重要组成部分。在此所介绍的语法分析系统所用的分析词典是以梅家驹等编篡的《同义词词林》为基础修改加工而成的。《同义词词林》收录词语近七万条,是一本类义词典,全部按意义进行编排。全书把词语分为大、中、小类三级,共分12个大类,94个中类,1428个小类,小类下再以同义原则划分成词群,每一词群以一标题词立目,共3925个标题词。其中12个大类是:
一、人;二、物;三、时间与空间;四、抽象事物;五、特征;六、动作;七、心理活动;八、活动;九、现象与状态;十、关联;十一、助语;十二、敬语。
1. 词典信息
在《同义词词林》的基础上,我们进行了词条的增减、修改、重新组织等工作,建立了容量近七万条的分析词典。每个词条均含多个属性,包括词名、词性、概念属性、词频、概念频率等等。其中频率属性均通过语料库的人工标注而得到,概念属性则建立了从分析词典到概念词典的映射关系。
2. 词性分类
词是自然语言中的基本元素,同时也是自然语言处理中的基本单元。词的分类信息是语法规则库的基础,也是语法分析器加工的初始信息。分类是否合理直接影响到分析器的成效。因此,词的分类问题是自然语言处理研究中的重要问题。
在分类时,要考虑到经济原则和足够原则:即分得太少,不便于分析工作;分得太多,会产生矛盾交叉现象,给分析工作带来麻烦。
系统参考《实用现代汉语语法》以及写语法分析规则的需要,作出如表1所示的词性分类表。
责任编辑:admin