专利一种文本关系抽取方法、装置、设备以及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210317850.9 (22)申请日 2022.03.29 (71)申请人科大讯飞（苏州）科技有限公司地址 215000 江苏省苏州市工业园区金鸡湖大道88号E4单元 (72)发明人邹梦　李直旭　瞿剑锋　郑新　陈志刚　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 专利代理师刘希 (51)Int.Cl. G06F 16/36(2019.01) G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/274(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种文本关系抽取方法、装置、设备以及存储介质 (57)摘要本申请公开了一种文本关系抽取方法、装置、设备以及存储介质，该方法包括：获取目标文本；利用预训练的编码器对目标文件进行编码处理，得到目标文本的编码特征；基于所述编码特征，利用句内关系抽取模型获得所述目标文本的每个句子中的第一实体关系信息，并利用全文关系抽取模型获得所述目标文本包含的第二实体关系信息。通过上述方式，本申请能够提高文本关系抽取的准确率。权利要求书4页说明书14页附图10页 CN 114610903 A 2022.06.10 CN 114610903 A 1.一种文本关系抽取方法，其特征在于，所述方法包括：获取目标文本；利用预训练的编码器对所述目标文本进行编码处理，得到目标文本的编码特征；基于所述编码特征，利用句内关系抽取模型获得所述目标文本的每个句子中的第一实体关系信息，并利用全文关系抽取模型获得所述目标文本包含的第二实体关系信息。 2.根据权利要求1所述的抽取方法，其特征在于，所述利用全文关系抽取模型获得所述目标文本包含的第二实体关系信息，包括：基于所述目标文本对应的编码特征，生成目标文档图；其中，所述目标文档图包含若干实体节点和若干句子节点，每个所述实体节点表示目标文本包含的一个实体，每个所述句子节点表示目标文本中包含的一个句子，具有包含关系的实体与句子分别对应的所述实体节点与所述句子节点具有连接关系，任意两个所述句子节点均具有连接关系；从所述目标文档图中，确定至少一条关于两个实体节点的实体关系路径；基于每条所述实体关系路径，确定对应的第二实体关系信息，其中，所述实体关系路径对应的第二实体关系信息表示所述实体关系路径所关于的两个实体节点对应的两个实体之间的关系。 3.根据权利要求2所述的方法，其特征在于，所述从所述目标文档图中，确定至少一条关于两个实体节点的实体关系路径，包括：利用所述目标文档图中的实体节点，组成至少一组目标实体节点对；对于每组所述目标实体节点对，利用所述目标实体节点对、所述目标文档图的关联句子节点和对应的连接关系，得到关于所述目标实体节点对的实体关系路径，其中，所述关联句子节点为所述目标实体节点对分别属于的句子对应的句子节点。 4.根据权利要求3所述的方法，其特征在于，所述利用所述目标文档图中的实体节点，组成至少一组目标实体节点对，包括：将属于同一句子的两个实体节点组成第一目标实体节点对，其中，所述第一目标实体节点对所对应的关联句子节点为所述第一目标实体节点对均属于的句子对应的句子节点；和/或，将属于不同句子的两个实体节点组成第二目标实体节点对，其中，所述第二目标实体节点对所对应的关联句子节点包括所述第二目标实体节点对分别属于的两个句子对应的两个句子节点。 5.根据权利要求4所述的方法，其特征在于，所述将属于不同句子的两个实体节点组成第二目标实体节点对，包括：将所在的两个句子满足第一条件的两个实体节点组成所述第二目标实体节点对，所述第一条件为所述两个句子均出现中介实体，关于所述第二目标实体节点对的实体关系路径还包括所述中介实体对应的实体节点；和/或，将所在的两个句子满足第二条件的两个实体节点组成所述第二目标实体节点对，其中，所述第二条件为所述两个句子相邻、且后一句子存在句首代词，所述目标文档图还包括句首代词节点，关于所述第二目标实体节点对的实体关系路径还包括后一句子对应的所述句首代词节点。 6.根据权利要求3所述的方法，其特征在于，所述基于每条所述实体关系路径，确定对权　利　要　求　书 1/4 页 2 CN 114610903 A 2应的第二实体关系信息，包括：对于每条所述实体关系路径，利用所述实体关系路径中包含的至少部分节点对应的编码特征，得到所述实体关系路径的路径特征；基于所述实体关系路径的路径特征，对所述目标实体节点对进行关系分类，得到所述目标实体节点对对应的两个节点之间的关系。 7.根据权利要求2所述的方法，其特征在于，所述基于所述目标文本对应的编码特征，生成目标文档图，包括：基于所述目标文本对应的编码特征，构建初始文档图，其中，所述初始文档图包含若干目标指称节点和若干所述句子节点，每个所述目标指称节点表示目标文本包含的一个目标指称，具有包含关系的目标指称与句子分别对应的所述目标指称节点与所述句子节点具有连接关系，属于同一实体的两个目标指称具有连接关系，任意两个所述句子节点均具有连接关系；基于图神经网络对所述初始文档图进行更新，得到所述目标文档图。 8.根据权利要求1所述的方法，其特征在于，所述利用句内关系抽取模型获得所述目标文本的每个句子中的第一实体关系信息，包括：利用所述句内关系抽取模型分别对所述目标文本的每个句子对应的编码特征进行处理，对应得到所述目标文本的每个句子中的第一实体关系信息。 9.根据权利要求1所述的方法，其特征在于，所述方法还包括以下步骤，以对所述编码器进行预训练：从语料库中获取第一训练样本文本，其中，所述语料库包括若干条样本文本，每条样本文本包括至少一个样本实体；利用所述编码器对所述第一训练样本文本进行编码，得到所述第一训练样本文本的第一编码特征；利用至少一种处理方式对所述第一训练样本文本的第一编码特征进行处理，以得到至少一种处理损失；利用所述至少一种处理损失，调整所述编码器的参数。 10.根据权利要求9所述的方法，其特征在于，所述样本文本为句子；和/或，所述利用至少一种处理方式对所述第一训练样本文本的第一编码特征进行处理，以得到至少一种处理损失，包括以下任意一个或多个步骤：从所述语料库中获取第一训练样本文本的至少一个关联样本文本，其中，所述关联样本文本包括第一训练样本文本的正样本和/或负样本，所述样本文本均包含至少两个样本实体；利用所述编码器获取关联样本文本的第二编码特征；基于所述第一训练样本文本中的第一样本实体对的关系与关联样本文本中的第二样本实体对的关系之间的差异、以及所述第一编码特征中关于第一样本实体对的特征表示与所述第二编码特征中关于第二样本实体对的特征表示之间的相似度，确定第一处理损失；查找出所述第一训练样本文本中的第一样本指称和第二样本指称，并使用第一掩码替换第一训练样本文本中的第一样本指称，得到第一替代文本；利用第二样本指称对第一替代文本中被替代的位置进行指称还原，得到第一衍生文本；利用编码器获取第一衍生文本的第三编码特征；基于所述第一编码特征和第三编码特征的相似度，确定第二处理损失；权　利　要　求　书 2/4 页 3 CN 114610903 A 3

专利 一种文本关系抽取方法、装置、设备以及存储介质

专利一种文本关系抽取方法、装置、设备以及存储介质