(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210801439.9
(22)申请日 2022.07.08
(65)同一申请的已公布的文献号
申请公布号 CN 114880491 A
(43)申请公布日 2022.08.09
(73)专利权人 云孚科技 (北京) 有限公司
地址 100085 北京市海淀区上地信息路2号
(北京实创高科技发展总公司2-2号D
栋1-8层) 三层3 06室
(72)发明人 张文斌 曾俊瑀 贾显伏 程尧
周建行 辛洁
(74)专利代理 机构 北京华夏泰和知识产权代理
有限公司 1 1662
专利代理师 邓菊香(51)Int.Cl.
G06F 16/36(2019.01)
G06F 40/126(2020.01)
G06F 40/211(2020.01)
G06F 40/284(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(56)对比文件
CN 112163416 A,2021.01.01
审查员 范玉霞
(54)发明名称
一种事理图谱自动构建方法和系统
(57)摘要
本发明提出一种事理图谱自动构建方法和
系统。 其中, 方法包括: 采用基于深度学习网络改
造的触发词增强的文本编码模型对句子进行文
本编码, 得到句子的语义向量; 采用统一的字符
对多头标注方式, 标注事件标注序列、 事件因果
关系头标注序列和事件因果关系尾标注序列, 并
得到事件集合和因果关系事件对集合; 对事件对
集合应用基于对比学习的事件向量学习的方法,
得到事件对的语义向量, 并得到两两事件的相似
程度; 根据两两事件的相似程度, 对事理图谱的
初始版本中的事件进行聚合, 得到最终版本的事
理图谱。 本发明提出的方案, 可大幅提高事件及
其因果关系的抽取准确率; 可大幅提高事件相似
度计算的准确率。
权利要求书5页 说明书18页 附图7页
CN 114880491 B
2022.09.23
CN 114880491 B
1.一种事理图谱自动构建方法, 其特 征在于, 所述方法包括:
步骤S1、 采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句
子进行文本编码, 得到句子的语义向量;
步骤S2、 采用统一的字符对多头标注方式, 标注事件标注序列、 事件因果关系头标注序
列和事件因果关系尾标注序列, 再根据标注后的事件标注序列、 事件因果关系头标注序列
和事件因果关系尾标注序列, 得到事 件集合和因果关系事 件对集合;
步骤S3、 通过所述事件集合构建事件对集合, 再对所述事件对集合应用基于对比学习
的事件向量学习的方法, 得到事件对的语义向量, 再通过所述事件对的语义向量, 判断两个
事件是否相似, 得到 两两事件的相似程度;
步骤S4、 通过因果关系事件对集合, 构建事理图谱的初始版本; 根据 所述两两事件的相
似程度, 对所述事理图谱的初始版本中的事 件进行聚合, 得到最终版本的事理图谱;
Transformer类预训练模型有L个Transformer层, 所述文本编码模型是在第k个
Transformer层和第k+1个Transformer层之间引入触发词增强模块而得到的;
在所述步骤S1中, 所述采用基于Transformer类预训练模型改造 的触发词增强的文本
编码模型对句子进行文本编码的方法包括:
句子经过所述Transformer类预训练模型的第k个Transformer层编码得到字符向量集
合;
句子通过所述触发词增强模块的触发词匹配和触发词嵌入, 得到 融合后的触发词集合
特征向量, 再将字符向量集合和所述融合后的触发词集合特征向量输入所述触发词增强模
块的触发词增强层进行相加, 得到触发词增强的字符向量 集合;
将所述触发词增强的字符向量集合输入第k个Transformer层之后的其余L ‑k层, 得到
句子的语义向量;
所述触发词增强模块通过触发词匹配和触发词嵌入, 得到 融合后的触发词集合特征向
量的方法包括:
利用触发词词典找出句子中每个字符匹配的触发词集合, 通过词向量模型word2vec将
所述触发词集 合映射为对应的触发词 词向量集合;
将所述触发词 词向量集合进行维度对齐;
将维度对齐后的触发词 词向量求和平均后, 得到融合后的触发词集 合特征向量;
在所述步骤S2中, 所述采用统一的字符对多头标注方式, 标注事件标注序列、 事件因果
关系头标注序列和事 件因果关系尾标注序列的方法包括:
所述事件标注序列、 事件因果关系头标注序列和事件因果关系尾标注序列均采用统一
的标注架构, 接入一个softmax层进行 标签预测, 具体公式为:
其中, ci、cj为句子中的任意2个字符, 矩阵Wo和向量bo为序列标注模型的参数, 可通过训
练得到,
表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率,
, 取概率最大的标签作为标签预测的结果, hi ,j为字符对(ci,cj)的语义向量,权 利 要 求 书 1/5 页
2
CN 114880491 B
2, 其中hi、hj分别为字符ci、cj的语义向量, 矩阵Wp和向量bp为序列
标注模型的参数, 可通过训练得到;
在所述步骤S2中, 所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函
数的优点, 改进损失函数, 具体公式为:
其中, E为事件标注序列, S为事件因果关系头标注序列,T为事件因果关系尾标注序列,
n为字符序列的长度,
为Dice损失函数的权重因子,
为Focal损失函数的权
重因子,
为Focal损失函数调节难分样 本的损失比例的参数,
为字符
对(ci,cj)在标注序列*中通 过序列标注 模型预测其 标签值为1的概率,
为字符对
(ci,cj)在标注序列*的真实标签值。
2.根据权利要求1所述的一种事理图谱自动构建方法, 其特征在于, 在所述步骤S2中,
根据标注后的事件标注序列、 事件因果关系头标注序列和事件因果关系尾标注序列, 得到
事件集合和因果关系事 件对集合的方法包括:
根据事件标注序列的标注结果, 抽取出句子中所有的事件, 得到事件的头尾字符位置
对的集合ES, 即事 件集合; 所述头尾字符位置对 包括, 事件头字符位置和事 件尾字符位置;
从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS; 所述关系头
字符位置对 包括: 原因事 件头字符位置和结果事 件头字符位置;
从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS; 所述关系尾
字符位置对 包括: 原因事 件尾字符位置和结果事 件尾字符位置;
从抽取出的事件集合ES中两 两枚举事 件构成候选因果事 件对集合PS;
对于所述PS中的每个候选因果事件对(C, E), 如果所述候选因果事件对 的头字符位置
对, 即C的头字 符位置和E的头字 符位置, 在所述关系头字符位置对集合HS中, 而且其尾字 符
位置对, 即C的尾字 符位置,E的尾字符位置在关系尾字符位置对集合TS中, 则抽取出的所述
候选因果事件对(C, E)是一个合法的因果事件对, 所有合法 的因果事件对构成因果关系事
件对集合。
3.根据权利要求1所述的一种事理图谱自动构建方法, 其特征在于, 在所述步骤S3中,
通过所述事件集合构建事件对集合, 再对所述事件对集合应用基于对比学习的事件向量学
习的方法, 得到事 件对的语义向量的方法包括:
对于所述事件集合中的每个事件E, 找出所述事件集合中所有与当前E的编辑距离不大
于1的事件作为正样本, 其 余事件作为负 样本, 得到一个事 件对集合;
对于所述事件对集合中的每个事件对, 将当前事件对的两个事件的文本分别 输入已构
建的基于预训练模型的孪生网络, 先通过预训练模 型进行模型编码, 再进 行平均池化, 分别
得到两个事件的语义向量a和b;
将所述a和b拼接得到拼接向量a,b, 然后将所述拼接向量a和b按元素求绝对差向量得权 利 要 求 书 2/5 页
3
CN 114880491 B
3
专利 一种事理图谱自动构建方法和系统
文档预览
中文文档
31 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共31页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:52:07上传分享