会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 术语相关 > 正文

分析词典的词汇信息

发布时间: 2022-12-08 09:22:10   作者:etogether.net   来源: 网络   浏览次数:
摘要: 一般说来,理想的分析词典大小为10万个词条左右,分析词典的词汇信息必须按照词义来组织。


分析词典存放词汇信息,是自动分词、句法分析、语义分析,和其他自然语言处理任务的重要知识源。一般说来,理想的分析词典大小为10万个词条左右。分析词典的词汇信息必须按照词义来组织。这是因为,对汉语来说,大多数的常用词都是多义词。最简单的词只有一个词性和词义。复杂的词,可能有多个词性,每个词性又可能有多个词义,不同的词义,读音也可能不一样。


具体地,分析词典存放的词汇信息又可分为以下几种:

1. 词条信息

词条信息包括读音、使用频率等等。其中最重要的是使用频率,自然语言处理的统计方法就是建立在频率统计的基础上的。在自动标注和词频统计阶段,使用频率是最重要的信息。而在自动分词、句法分析和语义分析中,在出现歧义的情况下,可利用频率信息来选择正确的结果。


频率信息主要来自语料库的统计结果。频率统计可以针对词,可以针对词性,也可以是针对词义的。统计得越详细,使用的原始数据越多,在自然语言处理中发挥的作用也越可靠。


2. 词法信息

词法信息包括词性和构词方式。汉语的词汇按照通常的分法分为13种词性。但是,详细的词性划分,能减少分析规则的书写难度,从而有助于减轻分析过程的复杂程度,因此在实际应用的时候,往往再进一步细分。清华大学在语料库标记时,即使用了如下的24类的分类方法:名词、方位词、处所词、时间词、数词、量词、区别词、代词、动词、形容词、状态词、副词、介词、连词、助词、语气词、叹词、象声词、前缀、后缀、成语、简称略语、习用语和其他。


构词方式也是一项重要的词法信息,在词典里存放构词信息可以减少词典的容量,降低冗余度。在印欧语中,词汇的派生常常引起词性的改变和意义的转移,一般要加以特殊的处理。汉语虽较缺乏词形的变化。但也有几种构词方式,包括儿化、叠词、加前缀、加后缀等,例如:


儿化:花儿  悄悄儿  玩儿

叠词:高高兴兴 绿油油 高高蒙蒙亮 马里马虎 雪白雪白

加前缀:第一  初五  阿姨  老蛇

加后缀:科学家  学者  标准化  哥儿们



微信公众号

[1] [2] [下一页] 【欢迎大家踊跃评论】
  • 上一篇:概念词典介绍
  • 下一篇:N元语法及其对训练语料库的敏感性


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)