专利文本对比方法、计算机设备及计算机存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210591024.3 (22)申请日 2022.05.27 (71)申请人深圳证券信息有限公司地址 518000 广东省深圳市福田区红荔西路203栋606室 (72)发明人黄何　毛瑞彬　朱菁　雷若琦　淮佳　张俊　杨建明　 (74)专利代理机构北京集佳知识产权代理有限公司 11227 专利代理师王学强 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01) (54)发明名称文本对比方法、计算机设备及计算机存储介质 (57)摘要本申请实施例公开了一种文本对比方法、计算机设备及计算机存储介质，用于实现多篇文档之间的语义及事件一致性核验，提高文档匹配的效率以及可靠性。本申请实施例提出了一种实现语义及事件一致性核验的文档对比方法，从段落粒度的语义对比层面出发，创新性结合NLP来处理两阶段式的文本匹配语义一致性对比和事件要素联合一致性判断，通过此文本对比方法解决文档之间内容匹配的过程，实现无监督学习以及有监督学习相互结合，共同提高匹配的效率以及可靠性。同时，本实施例从句子/短语粒度的事实对比层面出发，创新性提出一类基于事件要素抽取结合内容一致性判别方法框架，解决事件一致性核验的任务。权利要求书3页说明书12页附图3页 CN 115017879 A 2022.09.06 CN 115017879 A 1.一种文本对比方法，其特征在于，所述方法包括：获取目标文档和对比文档，计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率；分别从所述目标文档的每一段落对应的多个匹配关系概率中确定最大匹配关系概率；提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一段落不匹配。 2.根据权利要求1所述的方法，其特征在于，所述计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率，包括：获取预训练语言模型，根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型；根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落；根据目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型；根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中每一段落的匹配关系概率。 3.根据权利要求2所述的方法，其特征在于，所述根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单位化向量，包括：将所述目标文档的段落集合以及所述对比文档的段落集合输入至所述文本表示向量模型，以使得所述文本表示向量模型分别提取所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量；分别对所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量进行单位化，得到所述目标文档的各段落的单位化向量以及所述对比文档的各段落的单位化向量；所述根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文档中确定所述对比文档的候选段落，包括：分别将所述目标文档的每一单位化向量与所述对比文档的单位化向量的集合进行矩阵计算，得到所述目标文档的每一单位化向量对应的多个分值；分别从所述目标文档的每一单位化向量对应的多个分值中确定最大的K个分值，并将所述最大的K个分值对应的所述对比文档的段落确定为所述候选段落，其中K为正整数。 4.根据权利要求2所述的方法，其特征在于，所述根据所述目标文档和所述对比文档训练所述预训练语言模型，直至满足收敛条件时停止训练，得到文本表示向量模型，包括：将所述目标文档和所述对比文档输入至所述预训练语言模型以使所述预训练语言模型根据自监督学习算法进行模型训练，并输出所述目标文档的表征向量和所述对比文档的表征向量；构建InfoNCE Loss损失函数，根据所述目标文档的表征向量和所述对比文档的表征向量计算InfoNCE Loss值，当InfoNCE Loss值满足预设数值范围时确定所述预训练语言模型的模型训练满足收敛条件，并停止所述预训练语言模型的模型训练，得到所述文本表示向权　利　要　求　书 1/3 页 2 CN 115017879 A 2量模型。 5.根据权利要求2所述的方法，其特征在于，所述预训练语言模型包括Transformer的双向编码器表示模型；所述根据人工标注的目标文档与对比文档之间的匹配关系，构建文本对匹配关系数据集，根据所述文本对匹配关系数据集训练所述预训练语言模型，得到文本对语义匹配模型，包括：构建所述目标文档的每一段落分别对应的文本对匹配关系数据集，所述文本对匹配关系数据集为所述目标文档的任一段落与所述对比文档的段落集合中每个段落之间的人工标注的信息集合；基于所述文本对匹配关系数据集将所述目标文档的段落与所述对比文档的段落进行拼接，得到拼接段落，并在所述拼接段落添加CLS标志位和SEP标志位；对添加CLS标志位和SEP标志位的所述拼接段落进行特征化并输入至所述Transformer 双向编码器表示模型，以使得所述Transformer双向编码器表示模型的分类层对所述拼接段落的CLS标志位进行处理，得到所述Transformer双向编码器表示模型输出的标签的预测概率，根据所述预测概率计算二分类交叉熵损失函数LOSS值，当所述LOSS值满足收敛条件时得到所述文本对语义匹配模型。 6.根据权利要求2至5任一项所述的方法，其特征在于，若所述目标文档中存在最大匹配关系概率大于所述预设概率的目标段落，则所述方法还包括：确定所述对比文档中与所述目标段落相匹配的对比段落，分别对所述目标段落和所述对比段落进行分词，得到所述目标段落的输入序列以及所述对比段落的输入序列；分别根据孪生网络架构对所述目标段落的输入序列以及所述对比段落的输入序列进行语义表征，得到所述目标段落的输入序列中每个词所对应的上下文表示，以及所述对比段落的输入序列中每个词所对应的上下文表示；建立所述目标段落的事件要素标签类别，以及建立所述对比段落的事件要素标签类别；分别对所述目标段落的事件要素标签类别以及所述对比段落的事件要素标签类别进行要素抽取建模，得到所述目标段落对应token位置的要素标签以及所述对比段落对应 token位置的要素标签。 7.根据权利要求6所述的方法，其特征在于，所述方法还包括：建立所述目标段落的事件要素标签类别的目标矩阵，以及建立所述对比段落的事件要素标签类别的对比矩阵；根据所述目标矩阵将所述目标段落的每个token的输出结果映射到相应的向量，得到所述目标段落对应token位置的要素标签向量，以及，根据所述对比矩阵将所述对比段落的每个token的输出结果映射到相应的向量，得到所述对比段落对应t oken位置的要素标签向量；融合所述目标段落对应token位置的上下文表示与要素标签向量，得到所述目标段落对应token位置的标签融合上下文向量，以及，融合所述对比段落对应token位置的上下文表示与要素标签向量，得到所述对比段落对应to ken位置的标签融合上下文向量；将所述目标段落对应token位置的标签融合上下文向量与所述对比段落对应token位权　利　要　求　书 2/3 页 3 CN 115017879 A 3

专利 文本对比方法、计算机设备及计算机存储介质

专利文本对比方法、计算机设备及计算机存储介质