摘要:
本发明公开了一种结合稀疏编码和结构感知机的文本事件抽取方法。包括如下步骤:1)将文本数据依照ACE或RichERE规范标注构建为训练样本;2)将提取得到的实体作为事件触发词和事件参数的候选实体,抽取文本特征;3)进一步抽取文本分布式词向量特征,学习稀疏编码特征;4)利用训练样本和提取的文本特征,训练结构感知机分类器,同时识别文本中与关于事件的触发词和参数;5)对于新的文本数据,经过步骤1后输入结构感知机分类器,抽取文本事件信息。本发明利用了基于神经网络的分布式词向量特征的稀疏编码表达,强化了文本特征,另一方面使用结构感知机模型同时来学习事件触发词和事件参与者的识别,据此获得了更好的事件抽取效果。