专利事件抽取方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210509316.8 (22)申请日 2022.05.10 (71)申请人深延科技（北京）有限公司地址 100081 北京市海淀区中关村大街27 号15层15 08 (72)发明人陈海波　罗志鹏　张欢　潘春光　 (74)专利代理机构苏州领跃知识产权代理有限公司 32370 专利代理师张帆 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称事件抽取方法、装置、电子设备及存储介质 (57)摘要本申请提供了一种事件抽取方法、装置、电子设备和存储介质，该方法包括：利用事件抽取模型对待处理信息进行事件抽取，以获得所述待处理信息对应的预测结果，其中，事件抽取模型的训练过程包括：根据样本数据集获取训练集和验证集；采用交叉验证的方式，使用所述训练集分别对用于事件分类的待训练模型和用于主体识别的待训练模型进行训练，以获得多个事件分类模型和多个主体识别模型；分别对多个事件分类模型和多个主体识别模型中的每个模型进行多轮迭代，并选择每个模型对应的迭代过程中的最优模型；以及基于选择得到的每个模型的最优模型进行融合，以获得事件抽取模型。从而大幅提高了模型事件抽取任务的表现，提高了事件抽取准确性。权利要求书2页说明书13页附图6页 CN 114911905 A 2022.08.16 CN 114911905 A 1.一种事件抽取方法，包括：利用事件抽取模型对待处理信息进行事件抽取，以获得所述待处理信息对应的预测结果；其中，所述事件抽取模型的训练过程包括：根据样本数据集获取训练集和验证集；采用交叉验证的方式，使用所述训练集分别对用于事件分类的待训练模型和用于主体识别的待训练模型进行训练，以获得多个事件分类模型和多个主体识别模型；分别对多个事件分类模型和多个主体识别模型中的每个模型均进行多轮迭代，并选择每个所述模型对应的迭代过程中的最优模型；以及基于选择得到的每个所述模型对应的迭代过程中的最优模型进行融合，以获得所述事件抽取模型。 2.根据权利要求1所述的方法，其特征在于，其中，在使用所述训练集分别对所述用于事件分类的待训练模型和所述用于主体识别的待训练模型进行训练之前，所述事件抽取模型的训练过程还包括：对所述训练集中的用于主体识别的事件主体以特定概率进行随机替换；以及手动提取所述训练集中的与用于事件分类的事件类型相关的关键词，以形成关键词特征向量。 3.根据权利要求1或2所述的方法，其特征在于，其中，用于事件分类的待训练模型包括基于预训练BERT的多标签分类模型；并且用于主体识别的待训练模型包括条件随机场模型和/或基于BERT的阅读理解模型。 4.根据权利要求3所述的方法，其特征在于，在所述事件分类模型的训练过程中：在所述预训练BERT的嵌入层加入扰动，形成对抗样本，以提高所述多标签分类模型对所述对抗样本的鲁棒性；以及使用焦点损失函数作为损失函数。 5.根据权利要求4所述的方法，其特征在于，所述选择每个所述模型对应的迭代过程中的最优模型，包括：在每轮训练后使用所述验证集分别对当前轮次的每个所述模型进行验证，以获得所有轮次的每个所述模型的F1分数；以及针对每个所述模型，基于所有轮次的每个所述模型的F1分数，选取具有最高的所述F1 分数的其中一个轮次的模型，作为每个所述模型对应的迭代过程中的最优模型。 6.根据权利要求5所述的方法，其特征在于，其中，采用交叉验证的方式训练得到K个所述事件分类模型和P个所述主体识别模型，其中， K、 P为正整数；所述待处理信息对应的预测结果包括所述待处理信息对应的预测事件类型和预测事件主体；并且所述利用事件抽取模型对待处理信息进行事件抽取，以获得所述待处理信息对应的预测结果，包括：将所述待处理信息分别输入K个所述事件分类模型和P个所述主体识别模型，通过K个所述事件分类模型分别输出K个事件分类信息，通过P个所述主体识别模型分别输出P个主权　利　要　求　书 1/2 页 2 CN 114911905 A 2体识别信息；基于K个所述事件分类信息，获取所述待处理信息对应的预测事件类型；以及基于P个所述主体识别信息，获取所述待处理信息对应的预测事件主体。 7.根据权利要求6所述的方法，其特征在于，其中，所述基于K个所述事件分类信息，获取所述待处理信息对应的预测事件类型，包括：基于K个所述事件分类信息中同一事件类型对应的所有概率直接取平均值作为所述同一事件类型的概率，选取概率最高的一个事件类型作为所述待处理信息对应的预测事件类型；并且其中，所述基于P个所述主体识别信息，获取所述待处理信息对应的预测事件主体，包括：对P个所述主体识别信息中的每个事件主体进行投票，确定票数大于半数的事件主体作为所述待处理信息对应的预测事件主体。 8.一种事件抽取装置，其特征在于，该事件抽取装置用于利用事件抽取模型对待处理信息进行事件抽取，以获得所述待处理信息对应的预测结果，其中，所述事件抽取模型的训练过程包括：根据样本数据集获取训练集和验证集；采用交叉验证的方式，使用所述训练集分别对用于事件分类的待训练模型和用于主体识别的待训练模型进行训练，以获得多个事件分类模型和多个主体识别模型；分别对多个事件分类模型和多个主体识别模型中的每个模型均进行多轮迭代，并选择每个所述模型对应的迭代过程中的最优模型；以及基于选择得到的每个所述模型对应的迭代过程中的最优模型进行融合，以获得所述事件抽取模型。 9.一种电子设备，其特征在于，所述电子设备存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现权利要求1 ‑7任一项所述方法的步骤。 10.一种计算机可读存储介质，其特征在于，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1 ‑7任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 114911905 A 3

专利 事件抽取方法、装置、电子设备及存储介质

专利事件抽取方法、装置、电子设备及存储介质