会员中心 |  会员注册  |  兼职信息发布    浏览手机版!    精选9.9元!    人工翻译    英语IT服务 贫困儿童资助 | 留言板 | 设为首页 | 加入收藏  繁體中文
当前位置:首页 > 机翻技术 > 识别技术 > 正文

自动分词的原则

发布时间: 2022-12-06 09:18:29   作者:etogether.net   来源: 网络   浏览次数:
摘要: 分词单位的选取,一般情况下要以分词规范为准,但还要考虑具体的应用环境,灵活地加以控制。


自动分词系统只是中文信息处理系统的一部分,分词本身并不是目的,而只是后续过程的必备手段。分词单位的选取,一般情况下要以分词规范为准,但还要考虑具体的应用环境,灵活地加以控制,此外,还需兼顾大规模语料库处理的特殊要求。因此,自动分词原则应包括以下几点:


(1)分词单位的选取必须有利于标注、句法分析等后续过程的处理。这一点具体地体现在某些词组的处理上,这些词组包括数字词组(如:五分之三),时间词组(如:三月六日),人名(如:张胜利)等。分词规范规定:构成分词单位的词组必须具备结合紧密的特征,而分开后不改变原有组合意义的词组,则一律加以切分。按照这项规定,这些词组将被进一步切分;另外,在前缀词和后缀词的处理上,分词规范也作了类似的规定。实际上,这些词组在具体的上下文环境中合起来表达一个概念,作为一个分词单位更能符合后续处理的需要,我们没有必要在分词阶段把它们切分开,然后又费很大的精力在分析阶段再把分词单位合成为短语。


(2)分词准确率是分词系统最重要的性能指标。单纯的分词系统一般要同时兼顾切分精度和切分速度两个指标。而作为中文信息处理子系统的分词系统,其准确率直接影响着后续过程的准确率,同时,分词速度远远高于标注、分析等过程,不构成系统的处理瓶颈,即使采用较为复杂的方案,所需的处理时间仍远少于后续过程。这就使我们可以把主要的精力放在提高处理精度上来。


(3)为处理大规模的语料,要求系统有较好的容错性能。另外,分词词典必须有良好的可扩充性,具备从语料库中自动学习的能力。


(4)分词系统必须有较好的可移植性。可移植性表示从一个计算机系统或环境转移到另一个系统或环境的容易程度。一个好的分词系统不应该只能在一种环境下运行,而应该在稍作修改的情况下,就能移植到另一个系统中。


责任编辑:admin


微信公众号

  • 上一篇:机械分词方法
  • 下一篇:自然语言处理中新趋势的特征


  • 《译聚网》倡导尊重与保护知识产权。如发现本站文章存在版权问题,烦请30天内提供版权疑问、身份证明、版权证明、联系方式等发邮件至info@qiqee.net,我们将及时沟通与处理。


我来说两句
评分: 1分 2分 3分 4分 5分
评论内容:
验证码:
【网友评论仅供其表达个人看法,并不表明本站同意其观点或证实其描述。】
评论列表
已有 0 条评论(查看更多评论)