说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221073895 0.9 (22)申请日 2022.06.27 (71)申请人 招商银行股份有限公司 地址 518000 广东省深圳市福田区深南大 道7088招商银行 大厦 (72)发明人 唐程浩  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 专利代理师 冯会 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/335(2019.01) G06K 9/62(2022.01) G06F 40/289(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 缺陷查重实现方法、 装置、 终端设备及存储 介质 (57)摘要 本发明公开了一种缺陷查重实现方法、 装 置、 终端设备及存储介质, 该方法包括: 获取缺陷 查重任务, 所述缺陷查重任务包括: 待查重的缺 陷文本摘要; 对 所述缺陷文本摘要进行关键专有 词发现计算, 得到关键专有词计算结果; 基于所 述关键专有词计算结果进行主题匹配, 以匹配的 主题进行句子对组合, 得到组合后的句子对; 基 于预先构建的缺陷查重模型, 对 所述句子对进行 查重评判, 得到缺陷查重评判结果。 由此通过模 型和算法进行缺陷查重, 可以节省人工手动查重 的时间; 而且本方案对缺陷文本进行信息提取和 模型训练, 可以对短文本提炼语义信息并进行有 效查重, 提升了缺陷查重的效率和查重的有效 性。 权利要求书2页 说明书14页 附图3页 CN 114969347 A 2022.08.30 CN 114969347 A 1.一种缺陷查重实现方法, 其特 征在于, 所述方法包括如下步骤: 获取缺陷查重任务, 所述 缺陷查重任务包括: 待查重的缺陷文本摘要; 对所述缺陷文本摘要 进行关键专有词发现计算, 得到关键专有词计算结果; 基于所述关键专有词计算结果进行主题匹配, 以匹配的主题进行句子对组合, 得到组 合后的句子对; 基于预先构建的缺陷查重模型, 对所述句子对进行查重 评判, 得到缺陷查重 评判结果。 2.根据权利要求1所述的方法, 其特征在于, 所述基于所述关键专有词计算结果进行主 题匹配, 以匹配的主题进行句子对组合, 得到组合后的句子对的步骤 包括: 确定所述关键专有词计算结果中关键专有词的主题; 将所述关键专有词计算结果中关键专有词的主题与预先存储的平台全量缺陷文本的 关键专有词分类主题进行匹配; 以匹配的主题进行句子对组合, 得到组合后的句子对。 3.根据权利要求2所述的方法, 其特征在于, 所述以匹配的主题进行句子对组合的步骤 之后还包括: 对所述句子对进行 数据清洗, 得到清洗后的句子对。 4.根据权利要求1所述的方法, 其特征在于, 所述基于预先构建的缺陷查重模型, 对所 述句子对进行查重 评判, 得到缺陷查重 评判结果的步骤 包括: 对所述句子对进行复制, 得到 两份句子对; 将其中一份句子对采用预先训练好的加权词向量模型进行向量化, 得到加权向量化结 果; 将另一份句子对输入到预先训练好的缺陷查重模型, 通过所述缺陷查重模型并结合所 述加权向量 化结果, 对所述句子对进行查重 评判, 得到缺陷查重 评判结果。 5.根据权利要求1所述的方法, 其特征在于, 所述对所述缺陷文本摘要进行关键专有词 发现计算, 得到关键专有词计算结果的步骤之前还 包括: 对所述缺陷文本摘要进行预处理, 所述预处理的方式包括: 数据增强、 数据清洗 中的一 种或多种。 6.根据权利要求1所述的方法, 其特征在于, 所述对所述缺陷文本摘要进行关键专有词 发现计算, 得到关键专有词计算结果的步骤 包括: 采用左右信 息熵新词发现算法对所述缺陷文本摘要进行新词发现计算, 筛选出所述缺 陷文本摘要中的专有名词; 使用TFIDF算法计算所述 缺陷文本摘要中的关键词; 基于所述专有名词和关键词, 构建专有关键词表, 得到关键专有词计算结果。 7.根据权利要求4所述的方法, 其特征在于, 所述基于预先训练好的缺陷查重模型, 对 所述句子对进行查重 评判, 得到缺陷查重 评判结果的步骤之前还 包括: 构建所述 缺陷查重模型, 具体包括: 获取缺陷文本数据训练集, 所述训练集包括原 始缺陷摘要 文本数据; 对所述训练集中的原始缺陷摘要文本数据进行关键专有名词筛选, 根据筛选结果构建 所述训练集的专有关键词表; 基于所述训练集的专有关键词表, 以及预先训练的文本向量化模型, 对所述训练集的权 利 要 求 书 1/2 页 2 CN 114969347 A 2缺陷摘要 文本数据进行加权向量 化, 得到缺陷文本数据词向量; 基于所述缺陷文本数据词向量以及所述原始缺陷摘要文本数据进行模型训练和融合, 构建得到所述 缺陷查重模型。 8.根据权利要求7所述的方法, 其特征在于, 所述对所述训练集中的原始缺陷摘要文本 数据进行关键专有名词筛 选, 根据筛 选结果构建所述训练集的专有关键词表的步骤 包括: 采用左右信息熵新词发现算法对所述训练集中的原始缺陷摘要文本数据进行新词发 现计算, 筛 选出所述原始缺陷摘要 文本数据中的专有名词; 使用TFIDF算法计算所述原 始缺陷摘要 文本数据中的关键词; 基于所述原始缺陷摘要文本数据中的专有名词和关键词, 构建所述训练集的专有关键 词表。 9.根据权利要求7所述的方法, 其特征在于, 所述基于所述缺陷文本数据词向量以及所 述原始缺陷摘要 文本数据进行模型训练和融合, 构建得到所述 缺陷查重模型的步骤 包括: 将所述缺陷文本数据词向量输入预先创建的基于注意力机制的双向LSTM模型中进行 训练, 得到第一训练结果; 将所述原始缺陷摘要文本数据输入预选创建的AlBert预训练模型进行训练, 得到第二 训练结果; 通过XGBoost算法对所述第一训练结果和第二训练结果进行融合并迭代训练, 得到所 述缺陷查重模型。 10.根据权利要求7所述的方法, 其特征在于, 所述对所述训练集中的原始缺陷摘要文 本数据进行关键专有名词筛 选的步骤之前还 包括: 对所述缺陷文本数据训练集进行 数据预处 理, 具体包括: 对所述缺陷文本数据训练集进行 数据增强, 得到数据增强后的训练集; 采用常见停用词对所述训练集中的原始缺陷摘要文本数据进行数据清洗, 去掉无用和 干扰信息, 得到数据清洗后的训练集。 11.一种缺陷查重实现装置, 其特 征在于, 包括: 获取模块, 用于获取缺陷查重任务, 所述 缺陷查重任务包括: 待查重的缺陷文本摘要; 计算模块, 用于对所述缺陷文本摘要进行关键专有词发现计算, 得到关键专有词计算 结果; 组合模块, 用于基于所述关键专有词计算结果进行主题匹配, 以匹配的主题进行句子 对组合, 得到组合后的句子对; 评判模块, 用于基于预先构建的缺陷查重模型, 对所述句子对进行查重评判, 得到缺陷 查重评判结果。 12.一种终端设备, 其特征在于, 所述终端设备包括存储器、 处理器及存储在所述存储 器上并可在所述处理器上运行的缺陷查重实现程序, 所述缺陷查重实现程序被所述处理器 执行时实现如权利要求1 ‑10中任一项所述的缺陷查重实现方法的步骤。 13.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有缺陷查 重实现程序, 所述缺陷查重实现程序被处理器执行时实现如权利要求 1‑10中任一项 所述的 缺陷查重实现方法的步骤。权 利 要 求 书 2/2 页 3 CN 114969347 A 3

.PDF文档 专利 缺陷查重实现方法、装置、终端设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 缺陷查重实现方法、装置、终端设备及存储介质 第 1 页 专利 缺陷查重实现方法、装置、终端设备及存储介质 第 2 页 专利 缺陷查重实现方法、装置、终端设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:25上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。