摘要:
本发明属于开放知识抽取技术领域,具体为一种基于通用百科网站的领域百科构建系统.该系统分为以下几个模块:百科数据爬取模块,百科数据预处理模块,相关实体搜索及排序模块和实体聚类模块.本发明的有益效果在于:领域百科的构建目前大多为手工构建,费时费力,且人工不可能发现所有相关实体,因此覆盖率低;而以本发明找出的领域相关实体为基础建立领域百科,能极大地减少领域百科的构建的人力,并大幅提升覆盖率.同时,利用本发明系统所构建出的领域百科,将极大地方便用户获取特定领域的知识,省去了繁琐地搜索及筛选过程,把"用户被动地搜索信息"变成了"系统主动地提供信息".