专利一种事理图谱自动构建方法和系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210801439.9 (22)申请日 2022.07.08 (65)同一申请的已公布的文献号申请公布号 CN 114880491 A (43)申请公布日 2022.08.09 (73)专利权人云孚科技（北京）有限公司地址 100085 北京市海淀区上地信息路2号（北京实创高科技发展总公司2-2号D 栋1-8层）三层3 06室 (72)发明人张文斌　曾俊瑀　贾显伏　程尧　周建行　辛洁　 (74)专利代理机构北京华夏泰和知识产权代理有限公司 1 1662 专利代理师邓菊香(51)Int.Cl. G06F 16/36(2019.01) G06F 40/126(2020.01) G06F 40/211(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (56)对比文件 CN 112163416 A,2021.01.01 审查员范玉霞 (54)发明名称一种事理图谱自动构建方法和系统 (57)摘要本发明提出一种事理图谱自动构建方法和系统。其中，方法包括：采用基于深度学习网络改造的触发词增强的文本编码模型对句子进行文本编码，得到句子的语义向量；采用统一的字符对多头标注方式，标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列，并得到事件集合和因果关系事件对集合；对事件对集合应用基于对比学习的事件向量学习的方法，得到事件对的语义向量，并得到两两事件的相似程度；根据两两事件的相似程度，对事理图谱的初始版本中的事件进行聚合，得到最终版本的事理图谱。本发明提出的方案，可大幅提高事件及其因果关系的抽取准确率；可大幅提高事件相似度计算的准确率。权利要求书5页说明书18页附图7页 CN 114880491 B 2022.09.23 CN 114880491 B 1.一种事理图谱自动构建方法，其特征在于，所述方法包括：步骤S1、采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码，得到句子的语义向量；步骤S2、采用统一的字符对多头标注方式，标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列，再根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列，得到事件集合和因果关系事件对集合；步骤S3、通过所述事件集合构建事件对集合，再对所述事件对集合应用基于对比学习的事件向量学习的方法，得到事件对的语义向量，再通过所述事件对的语义向量，判断两个事件是否相似，得到两两事件的相似程度；步骤S4、通过因果关系事件对集合，构建事理图谱的初始版本；根据所述两两事件的相似程度，对所述事理图谱的初始版本中的事件进行聚合，得到最终版本的事理图谱； Transformer类预训练模型有L个Transformer层，所述文本编码模型是在第k个 Transformer层和第k+1个Transformer层之间引入触发词增强模块而得到的；在所述步骤S1中，所述采用基于Transformer类预训练模型改造的触发词增强的文本编码模型对句子进行文本编码的方法包括：句子经过所述Transformer类预训练模型的第k个Transformer层编码得到字符向量集合；句子通过所述触发词增强模块的触发词匹配和触发词嵌入，得到融合后的触发词集合特征向量，再将字符向量集合和所述融合后的触发词集合特征向量输入所述触发词增强模块的触发词增强层进行相加，得到触发词增强的字符向量集合；将所述触发词增强的字符向量集合输入第k个Transformer层之后的其余L ‑k层，得到句子的语义向量；所述触发词增强模块通过触发词匹配和触发词嵌入，得到融合后的触发词集合特征向量的方法包括：利用触发词词典找出句子中每个字符匹配的触发词集合，通过词向量模型word2vec将所述触发词集合映射为对应的触发词词向量集合；将所述触发词词向量集合进行维度对齐；将维度对齐后的触发词词向量求和平均后，得到融合后的触发词集合特征向量；在所述步骤S2中，所述采用统一的字符对多头标注方式，标注事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列的方法包括：所述事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列均采用统一的标注架构，接入一个softmax层进行标签预测，具体公式为：其中， ci、cj为句子中的任意2个字符，矩阵Wo和向量bo为序列标注模型的参数，可通过训练得到，表示将字符对(ci,cj)通过序列标注模型标记为标签l的概率，，取概率最大的标签作为标签预测的结果， hi ,j为字符对(ci,cj)的语义向量，权　利　要　求　书 1/5 页 2 CN 114880491 B 2，其中hi、hj分别为字符ci、cj的语义向量，矩阵Wp和向量bp为序列标注模型的参数，可通过训练得到；在所述步骤S2中，所述标注架构的训练损失函数为融合Focal损失函数和Dice损失函数的优点，改进损失函数，具体公式为：其中， E为事件标注序列， S为事件因果关系头标注序列,T为事件因果关系尾标注序列， n为字符序列的长度，为Dice损失函数的权重因子，为Focal损失函数的权重因子，为Focal损失函数调节难分样本的损失比例的参数，为字符对(ci,cj)在标注序列*中通过序列标注模型预测其标签值为1的概率，为字符对 (ci,cj)在标注序列*的真实标签值。 2.根据权利要求1所述的一种事理图谱自动构建方法，其特征在于，在所述步骤S2中，根据标注后的事件标注序列、事件因果关系头标注序列和事件因果关系尾标注序列，得到事件集合和因果关系事件对集合的方法包括：根据事件标注序列的标注结果，抽取出句子中所有的事件，得到事件的头尾字符位置对的集合ES，即事件集合；所述头尾字符位置对包括，事件头字符位置和事件尾字符位置；从事件因果关系头标注序列中抽取出所有的关系头字符位置对的集合HS；所述关系头字符位置对包括：原因事件头字符位置和结果事件头字符位置；从事件因果关系尾标注序列中抽取出所有的关系尾字符位置对的集合TS；所述关系尾字符位置对包括：原因事件尾字符位置和结果事件尾字符位置；从抽取出的事件集合ES中两两枚举事件构成候选因果事件对集合PS；对于所述PS中的每个候选因果事件对(C， E)，如果所述候选因果事件对的头字符位置对，即C的头字符位置和E的头字符位置，在所述关系头字符位置对集合HS中，而且其尾字符位置对，即C的尾字符位置,E的尾字符位置在关系尾字符位置对集合TS中，则抽取出的所述候选因果事件对(C， E)是一个合法的因果事件对，所有合法的因果事件对构成因果关系事件对集合。 3.根据权利要求1所述的一种事理图谱自动构建方法，其特征在于，在所述步骤S3中，通过所述事件集合构建事件对集合，再对所述事件对集合应用基于对比学习的事件向量学习的方法，得到事件对的语义向量的方法包括：对于所述事件集合中的每个事件E，找出所述事件集合中所有与当前E的编辑距离不大于1的事件作为正样本，其余事件作为负样本，得到一个事件对集合；对于所述事件对集合中的每个事件对，将当前事件对的两个事件的文本分别输入已构建的基于预训练模型的孪生网络，先通过预训练模型进行模型编码，再进行平均池化，分别得到两个事件的语义向量a和b；将所述a和b拼接得到拼接向量a,b，然后将所述拼接向量a和b按元素求绝对差向量得权　利　要　求　书 2/5 页 3 CN 114880491 B 3

专利 一种事理图谱自动构建方法和系统

专利一种事理图谱自动构建方法和系统