申请入驻
会员登录
首页
专家库
成果简介
采编系统
官方活动
综合
综合
专家
记者
成果
新闻
观点
活动
检索
第一学习
智库首页
>
智库成果
>
期刊论文
基于Lucene和MMSEG算法的中文分词器研究
邓晓枫
蒋廷耀
· 2017
分享
收藏
阅读量:245
Lucene
mmseg
中文分词器
索引
期刊名称:
信息通信 2017 年 09 期
摘要:
Lucene开放源代码的特性让很多人使用它来构建具体的全文检索应用,然而对于中文检索来说,Lucene自带的中文分词器对中文的分词处理并不理想,其分词的正确率和分词速度以及对歧义词处理等方面不能满足大多数应用的需求,因此有必要为Lucene引入第三方分词器来弥补自带分词功能的缺陷。文章对采用mmseg算法的2种分词器mmseg4j和Jcseg在分词指标、索引创建的时间消耗方面进行测试比较,评估分析测试结果,结合应用场景为Lucene选择一个合适的分词器来加强中文分词功能。
相关专家
相关课题