申请入驻
会员登录
首页
专家库
成果简介
采编系统
官方活动
综合
综合
专家
记者
成果
新闻
观点
活动
检索
第一学习
智库首页
>
智库成果
>
期刊论文
基于语料库和网络的新词自动识别
刘建舟
何婷婷
骆昌日
· 2004
分享
收藏
阅读量:31
抽取多字词
页面解析
动态语料库
期刊名称:
计算机应用 2004 年 07 期
摘要:
汉语自动分词是进行中文信息处理的基础。目前 ,困扰汉语自动分词的一个主要难题就是新词自动识别 ,尤其是非专名新词的自动识别。同时 ,新词自动识别对于汉语词典的编纂也有着极为重要的意义。文中提出了一种新的新词自动识别的方法。这个方法用到了互信息和log likelihoodratio两个参数的改进形式。主要分三个阶段完成 :先从网络上下载丰富的语料 ,构建语料库 ;然后采用统计的方法进行多字词识别 ;最后与已有的词表进行对照 ,判定新词。
相关专家
相关课题