说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210591024.3 (22)申请日 2022.05.27 (71)申请人 深圳证券信息有限公司 地址 518000 广东省深圳市福田区红荔西 路203栋606室 (72)发明人 黄何 毛瑞彬 朱菁 雷若琦  淮佳 张俊 杨建明  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王学强 (51)Int.Cl. G06F 40/194(2020.01) G06F 40/30(2020.01) (54)发明名称 文本对比方法、 计算机 设备及计算机存储介 质 (57)摘要 本申请实施例公开了一种文本对比方法、 计 算机设备及计算机存储介质, 用于实现多篇文档 之间的语义及事件一致性核验, 提高文档匹配的 效率以及可靠性。 本申请实施例提出了一种实现 语义及事件一致性核验的文档对比方法, 从段落 粒度的语义对比层面出发, 创新性结合NLP来处 理两阶段式的文本匹配语义一致性对比和事件 要素联合一致性判断, 通过此文本对比方法解决 文档之间内容匹配的过程, 实现无监督学习以及 有监督学习相互结合, 共同提高匹配的效率以及 可靠性。 同时, 本实施例从句子/短语粒度的事实 对比层面出发, 创新性提出一类基于事件要素抽 取结合内容一致性判别方法框架, 解决事件一致 性核验的任务。 权利要求书3页 说明书12页 附图3页 CN 115017879 A 2022.09.06 CN 115017879 A 1.一种文本对比方法, 其特 征在于, 所述方法包括: 获取目标文档和对比文档, 计算所述目标文档的每一段落各自与所述候选段落中每一 段落的匹配关系概 率; 分别从所述目标文档的每一段落对应的多个匹配关系概 率中确定最大匹配关系概 率; 提示所述目标文档中最大匹配关系概率小于预设概率的段落与所述对比文档的任一 段落不匹配。 2.根据权利要求1所述的方法, 其特征在于, 所述计算所述目标文档的每一段落各自与 所述候选段落中每一段落的匹配关系概 率, 包括: 获取预训练语言模型, 根据所述目标文档和所述对比文档训练所述预训练语言模型, 直至满足收敛 条件时停止训练, 得到文本表示向量模型; 根据所述文本表示向量模型提取所述目标文档的单位化向量以及所述对比文档的单 位化向量, 根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文 档中确定所述对比文档的候选段落; 根据目标文档与对比文档之间的匹配关系, 构建文本对匹配关系数据集, 根据所述文 本对匹配关系数据集训练所述预训练语言模型, 得到文本对语义匹配模型; 根据所述文本对语义匹配模型计算所述目标文档的每一段落各自与所述候选段落中 每一段落的匹配关系概 率。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述文本表示向量模型提取所述 目标文档的单位 化向量以及所述对比文档的单位 化向量, 包括: 将所述目标文档的段落集合以及所述对比文档的段落集合输入至所述文本表示向量 模型, 以使得所述文本表示向量模型分别提取所述目标文档的各段落的语义向量以及所述 对比文档的各 段落的语义向量; 分别对所述目标文档的各段落的语义向量以及所述对比文档的各段落的语义向量进 行单位化, 得到所述目标文档的各段落的单位化向量以及所述对比文档的各段落的单位化 向量; 所述根据所述目标文档的单位化向量以及所述对比文档的单位化向量从所述对比文 档中确定所述对比文档的候选段落, 包括: 分别将所述目标文档的每一单位化向量与所述对比文档的单位化向量的集合进行矩 阵计算, 得到所述目标文档的每一单位 化向量对应的多个分值; 分别从所述目标文档的每一单位化向量对应的多个分值中确定最大的K个分值, 并将 所述最大的K个分值对应的所述对比文档的段落确定为所述 候选段落, 其中K为 正整数。 4.根据权利要求2所述的方法, 其特征在于, 所述根据所述目标文档和所述对比文档训 练所述预训练语言模型, 直至满足收敛 条件时停止训练, 得到文本表示向量模型, 包括: 将所述目标文档和所述对比文档输入至所述预训练语言模型以使所述预训练语言模 型根据自监督学习算法进 行模型训练, 并输出所述目标文档的表征向量和所述对比文档的 表征向量; 构建InfoNCE  Loss损失函数, 根据所述目标文档的表征向量和所述对比文档的表征向 量计算InfoNCE  Loss值, 当InfoNCE  Loss值满足预设数值范围时确定所述预训练语言模型 的模型训练满足收敛条件, 并停止所述预训练语言模型 的模型训练, 得到所述文本表示向权 利 要 求 书 1/3 页 2 CN 115017879 A 2量模型。 5.根据权利要求2所述的方法, 其特征在于, 所述预训练语言模型包括Transformer的 双向编码器表示模型; 所述根据 人工标注的目标文档与对比文档之间的匹配关系, 构建文本对 匹配关系数据 集, 根据所述文本对匹配关系数据集训练所述预训练语言模型, 得到文本对语义匹配模型, 包括: 构建所述目标文档的每一段落分别对应的文本对匹配关系数据集, 所述文本对 匹配关 系数据集为所述目标文档的任一段落与所述对比文档的段落集合中每个段落之间的人工 标注的信息集 合; 基于所述文本对匹配关系数据集将所述目标文档的段落与所述对比文档的段落进行 拼接, 得到拼接段落, 并在所述 拼接段落添加CLS标志位和SEP标志位; 对添加CLS标志位和SEP标志位的所述拼接段落进行特征化并输入至所述Transformer 双向编码器表示模型, 以使得所述Transformer双向编码器表示模型的分类层对所述拼接 段落的CLS标志 位进行处理, 得到所述Transformer双向编码器表示模 型输出的标签的预测 概率, 根据所述预测概率计算二分类交叉熵损失函数LOSS值, 当所述LOSS值满足收敛条件 时得到所述文本对语义匹配模型。 6.根据权利要求2至5任一项所述的方法, 其特征在于, 若所述目标文档 中存在最大匹 配关系概 率大于所述预设概 率的目标 段落, 则所述方法还 包括: 确定所述对比文档中与所述目标段落相匹配的对比段落, 分别对所述目标段落和所述 对比段落进行分词, 得到所述目标 段落的输入序列以及所述对比段落的输入序列; 分别根据孪生网络架构对所述目标段落的输入序列以及所述对比段落的输入序列进 行语义表征, 得到所述 目标段落的输入序列中每个词所对应的上下文表示, 以及所述对比 段落的输入序列中每 个词所对应的上 下文表示; 建立所述目标段落的事件要素标签类别, 以及建立所述对比段落的事件要素标签类 别; 分别对所述目标段落的事件要素标签类别以及所述对比段落的事件要素标签类别进 行要素抽取建模, 得到所述目标段落对应token位置的要素标签以及所述对比段落对应 token位置的要素 标签。 7.根据权利要求6所述的方法, 其特 征在于, 所述方法还 包括: 建立所述目标段落的事件要素标签类别的目标矩阵, 以及 建立所述对比段落的事件要 素标签类别的对比矩阵; 根据所述目标矩阵将所述目标段落的每个token的输出结果映射到相应的向量, 得到 所述目标段落对应token位置的要 素标签向量, 以及, 根据所述对比矩阵将所述对比段落的 每个token的输出结果映射到相应的向量, 得到所述对比段落对应t oken位置的要 素标签向 量; 融合所述目标段落对应token位置的上下文表示与要素标签向量, 得到所述目标段落 对应token位置的标签融合上下文向量, 以及, 融合所述对比段落对应token位置的上下文 表示与要素 标签向量, 得到所述对比段落对应to ken位置的标签融合上 下文向量; 将所述目标段落对应token位置的标签融合上下文向量与所述对比段落对应token位权 利 要 求 书 2/3 页 3 CN 115017879 A 3

.PDF文档 专利 文本对比方法、计算机设备及计算机存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 文本对比方法、计算机设备及计算机存储介质 第 1 页 专利 文本对比方法、计算机设备及计算机存储介质 第 2 页 专利 文本对比方法、计算机设备及计算机存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。