一种融合提及实体信息的文档向量学习方法
汤斯亮 吴飞 戴洪良 张宁 庄越挺 邵健 · 2017
收藏
阅读量:280
专利权人:
浙江大学
申请人:
浙江大学
通讯地址:
浙江大学
专利类型:
发明专利
专利号:
CN106570132A
摘要:
本发明公开了一种融合提及实体信息的文档向量学习方法,使用机器学习的方法学习一个文档集合中所有文档的向量表达。其步骤包括:预处理文档集合,找出每篇文档提及的实体,计算不同实体间关联程度;为文档集合中的每一个文档初始化一个向量,并初始化其他训练所需的参数;根据预处理结果,重复地抽取文档-词对、文档-实体对或实体-实体对来更新文档向量和其他参数,直至收敛。使用该方法学习得到的文档向量不仅包含了文档中词的信息,还包含了文档中提到的实体的信息,且利用了实体与实体间的关联信息。学到的文档向量如果运用到文档分类、文档聚类、实体链接等应用中,可以有效提高性能,并且节省存储空间。
相关专家
相关课题