说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210509316.8 (22)申请日 2022.05.10 (71)申请人 深延科技 (北京) 有限公司 地址 100081 北京市海淀区中关村大街27 号15层15 08 (72)发明人 陈海波 罗志鹏 张欢 潘春光  (74)专利代理 机构 苏州领跃知识产权代理有限 公司 32370 专利代理师 张帆 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06K 9/62(2022.01) (54)发明名称 事件抽取方法、 装置、 电子设备及存 储介质 (57)摘要 本申请提供了一种事件抽取方法、 装置、 电 子设备和存储介质, 该方法包括: 利用事件抽取 模型对待处理信息进行事件抽取, 以获得所述待 处理信息对应的预测结果, 其中, 事件抽取模型 的训练过程包括: 根据样本数据集获取训练集和 验证集; 采用交叉验证的方式, 使用所述训练集 分别对用于事件分类的待训练模型和用于主体 识别的待训练模 型进行训练, 以获得多个事件分 类模型和多个主体识别模型; 分别对多个事件分 类模型和多个主体识别模型中的每个模型进行 多轮迭代, 并选择每个模型对应的迭代过程中的 最优模型; 以及基于选择得到的每个模型的最优 模型进行融合, 以获得事件抽取模型。 从而大幅 提高了模型事件抽取任务的表现, 提高了事件抽 取准确性。 权利要求书2页 说明书13页 附图6页 CN 114911905 A 2022.08.16 CN 114911905 A 1.一种事 件抽取方法, 包括: 利用事件抽取模型对待处理信 息进行事件抽取, 以获得所述待处理信 息对应的预测结 果; 其中, 所述事 件抽取模型的训练过程包括: 根据样本数据集获取训练集和验证集; 采用交叉验证的方式, 使用所述训练集分别对用于事件分类的待训练模型和用于主体 识别的待训练模型进行训练, 以获得多个事 件分类模型和多个主体识别模型; 分别对多个事件分类模型和多个主体识别模型中的每个模型均进行多轮迭代, 并选择 每个所述模型对应的迭代过程中的最优 模型; 以及 基于选择得到的每个所述模型对应的迭代过程中的最优模型进行融合, 以获得所述事 件抽取模型。 2.根据权利要求1所述的方法, 其特征在于, 其中, 在使用所述训练集分别对所述用于 事件分类的待训练模型和所述用于主体识别的待训练模型进 行训练之前, 所述事件抽取模 型的训练过程还 包括: 对所述训练集中的用于主体识别的事 件主体以特定概 率进行随机替换; 以及 手动提取所述训练集中的与用于事件分类的事件类型相关的关键词, 以形成关键词特 征向量。 3.根据权利要求1或2所述的方法, 其特 征在于, 其中, 用于事件分类的待训练模型包括基于预训练BERT的多标签分类模型; 并且 用于主体识别的待训练模型包括条件随机场模型和/或基于BERT的阅读理解模型。 4.根据权利要求3所述的方法, 其特 征在于, 在所述事 件分类模型的训练过程中: 在所述预训练BERT的嵌入层加入扰动, 形成对抗样本, 以提高所述多标签分类模型对 所述对抗样本的鲁棒 性; 以及 使用焦点损失函数作为损失函数。 5.根据权利要求4所述的方法, 其特征在于, 所述选择每个所述模型对应的迭代过程中 的最优模型, 包括: 在每轮训练后使用所述验证集分别对当前轮次的每个所述模型进行验证, 以获得所有 轮次的每 个所述模型的F1分数; 以及 针对每个所述模型, 基于所有轮次的每个所述模型的F1分数, 选取具有最高的所述F1 分数的其中一个 轮次的模型, 作为每 个所述模型对应的迭代过程中的最优 模型。 6.根据权利要求5所述的方法, 其特 征在于, 其中, 采用交叉验证的方式训练得到K个所述事件分类模型和P个所述主体识别模型, 其中, K、 P为正整数; 所述待处理信息对应的预测结果包括所述待处理信息对应的预测事件类型和预测事 件主体; 并且 所述利用事件抽取模型对待处理信 息进行事件抽取, 以获得所述待处理信 息对应的预 测结果, 包括: 将所述待处理信息分别输入K个所述事件分类模型和P个所述主体识别模型, 通过K个 所述事件分类模型分别输出K个事件分类信息, 通过P个所述主体识别模型分别输出P个主权 利 要 求 书 1/2 页 2 CN 114911905 A 2体识别信息; 基于K个所述事 件分类信息, 获取 所述待处 理信息对应的预测事 件类型; 以及 基于P个所述主体识别 信息, 获取 所述待处 理信息对应的预测事 件主体。 7.根据权利要求6所述的方法, 其特 征在于, 其中, 所述基于K个所述事 件分类信息, 获取 所述待处 理信息对应的预测事 件类型, 包括: 基于K个所述事件分类信 息中同一事件类型对应的所有概率直接取平均值作为所述同 一事件类型的概率, 选取概率最高的一个事件类型作为所述待处理信息对应的预测事件类 型; 并且其中, 所述基于P个所述主体识别 信息, 获取 所述待处 理信息对应的预测事 件主体, 包括: 对P个所述主体识别信息中的每个事件主体进行投票, 确定票数大于半数的事件主体 作为所述待处 理信息对应的预测事 件主体。 8.一种事件抽取装置, 其特征在于, 该事件抽取装置用于利用事件抽取模型对待处理 信息进行事件抽取, 以获得所述待处理信息对应的预测结果, 其中, 所述事件抽取模型的训 练过程包括: 根据样本数据集获取训练集和验证集; 采用交叉验证的方式, 使用所述训练集分别对用于事件分类的待训练模型和用于主体 识别的待训练模型进行训练, 以获得多个事 件分类模型和多个主体识别模型; 分别对多个事件分类模型和多个主体识别模型中的每个模型均进行多轮迭代, 并选择 每个所述模型对应的迭代过程中的最优 模型; 以及 基于选择得到的每个所述模型对应的迭代过程中的最优模型进行融合, 以获得所述事 件抽取模型。 9.一种电子设备, 其特征在于, 所述电子设备存储器和处理器, 所述存储器存储有计算 机程序, 所述处 理器执行所述计算机程序时实现权利要求1 ‑7任一项所述方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 存储有计算机程序, 所述计算机程序被处 理器执行时实现权利要求1 ‑7任一项所述方法的步骤。权 利 要 求 书 2/2 页 3 CN 114911905 A 3

.PDF文档 专利 事件抽取方法、装置、电子设备及存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 事件抽取方法、装置、电子设备及存储介质 第 1 页 专利 事件抽取方法、装置、电子设备及存储介质 第 2 页 专利 事件抽取方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:53上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。