一种电子病历高质短语抽取方法
专利权人:
清华大学
申请人:
清华大学
通讯地址:
清华大学
专利类型:
发明专利
专利号:
CN106649256A
摘要:
本发明涉及一种电子病历高质短语抽取方法,属于大数据检索技术领域,该方法分为频繁短语挖掘、短语质量评估、短语切分和先验短语集更新四个阶段。首先进行频繁短语挖掘,基于频度统计,当短语出现频度大于阈值时,认为该短语频繁;然后,根据先验短语集对生成的频繁短语候选进行短语质量评估;接着,根据评估出的短语质量值进行短语切分,并修正错误的原始频率估计;最后,将切分结果中的高质短语加入先验短语集,完成高质短语抽取及先验短语集更新,以便在下次短语切分时,达到更好的切分效果。本方法能够有效抽取电子病历中的高质短语,抽取出的短语是病历中的常用词汇,且符合医生的使用习惯。
相关专家
相关课题