说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210646944.0 (22)申请日 2022.06.08 (71)申请人 深圳市赛 为智能股份有限公司 地址 518000 广东省深圳市龙岗区南湾街 道下李朗社区联李东路8号赛为大楼 A101至15楼 (72)发明人 胡懋成 王秋阳 郑博超 凤阳  (74)专利代理 机构 深圳市精英专利事务所 44242 专利代理师 周永敬 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称 案件相似度匹配方法、 装置、 计算机设备及 存储介质 (57)摘要 本发明实施例公开了一种案件相似度匹配 方法、 装置、 计算机设备及存储介质, 方法包括; 获取案件数据库中的案件判决书文本; 从案件判 决书文本中收集停用词汇和专用名词词汇, 并生 成停用词词汇库和专有词词汇库; 从案件判决书 文本中选取需要进行相似度匹配的第一案件文 本和第二案件文本; 将第一案件文本和第二案件 文本输入到孪生网络中进行处理, 以得到第一案 件文本和第二案件文本的相似概率值; 若第一案 件文本和第二案件文本的相似概率值满足设定 的相似阈值, 则判定第一案件文本和第二案件文 本为相似案件。 本发明提升了案件相似度匹配的 有效性和准确性。 权利要求书3页 说明书13页 附图2页 CN 114881028 A 2022.08.09 CN 114881028 A 1.案件相似度匹配方法, 其特 征在于, 包括: 获取案件数据库中的案件判决书 文本; 从案件判决书文本 中收集停用词汇和 专用名词词汇, 并生成停用词词汇库和 专有词词 汇库; 从案件判决书 文本中选取需要 进行相似度匹配的第一案件文本和第二案件文本; 将第一案件文本和第 二案件文本输入到孪生网络中进行处理, 以得到第 一案件文本和 第二案件文本的相似概 率值; 若第一案件文本和第 二案件文本的相似概率值满足设定的相似阈值, 则判定第 一案件 文本和第二案件文本为相似案件。 2.根据权利要求1所述的案件相似度匹配方法, 其特征在于, 所述将第 一案件文本和第 二案件文本输入到孪生网络中进 行处理, 以得到第一案件文本和 第二案件文本的相似概率 值, 所述孪生网络包括基于ERNIE的文本向量的网络模型、 基于WordGCN图的文本向量的网 络模型以及基于主题词的文本向量的网络模型。 3.根据权利要求2所述的案件相似度匹配方法, 其特征在于, 所述所述将第 一案件文本 和第二案件文本输入到孪生网络中进 行处理, 以得到第一案件文本和 第二案件文本的相似 概率值, 包括: 将第一案件文本和第二案件文本输入到基于ERNIE的文本向量的网络模型中进行处 理, 以得到第一案件文本和第二案件文本的第一处 理特征; 将第一案件文本和第二案件文本输入到基于WordGCN图的文本向量的网络模型进行处 理, 以得到第一案件文本和第二案件文本的第二处 理特征; 将第一案件文本和第 二案件文本输入到基于主题词的文本向量的网络模型进行处理, 以得到第一案件文本和第二案件文本的第三处 理特征; 将第一案件文本和第二案件文本的第一处理特征和第一案件文本和第二案件文本的 第二处理特征进行co ncate合并处 理, 以得到第一案件文本和第二案件文本的合并特 征; 将第一案件文本和第 二案件文本的合并特征输入到全连接层处理, 以得到第 一案件文 本和第二案件文本的全连接层处 理特征; 将第一案件文本和第二案件文本的全连接层处理特征与第一案件文本和第二案件文 本的第三处理特征进 行乘法运算, 以得到第一案件文本和 第二案件文本的文本语义表征特 征; 对第一案件文本和第 二案件文本的文本语义表征特征进行全连接层和激活函数处理, 以得到第一案件文本和第二案件文本的文本抽象语义表征; 将第一案件文本和第 二案件文本的文本抽象语义表征经过维度为1的全连接层的矩阵 以及sigmo id激活函数处 理, 以得到第一案件文本和第二案件文本的相似概 率值。 4.根据权利要求3所述的案件相似度匹配方法, 其特征在于, 所述将第 一案件文本和第 二案件文本输入到基于ERNIE的文本向量的网络模型中进行处理, 以得到第一案件文本和 第二案件文本的第一处 理特征, 包括: 根据第一案件文本和第二案件文本中文本内容的断句符号进行语句切分; 通过分词工具并结合停用词词汇库和专有词词汇库对语句进行分词, 以得到分词数 据;权 利 要 求 书 1/3 页 2 CN 114881028 A 2通过ERNIE基于MLM对分词数据进行处 理, 以得到每 个词的词向量; 将每一句话中的每 个词的词向量进行求和运 算, 以得到句向量的特 征向量; 将文本内容的所有句向量的特征向量通过Bi ‑LSTM进行concate融合, 以得到第一案件 文本和第二案件文本的第一处 理特征。 5.根据权利要求3所述的案件相似度匹配方法, 其特征在于, 所述将第 一案件文本和第 二案件文本输入到基于WordGCN图的文本向量的网络模型进行处理, 以得到第一案件文本 和第二案件文本的第二处 理特征, 包括: 通过WordGCN模型中的句子层级和语料层级中的词与词之间的关系对第一案件文本和 第二案件文本的单词进行编码, 以得到词向量; 根据词向量构建语句向量; 将语句向量输入到Bi ‑GRU进行处理, 以得到第一案件文本和第二案件文本第二处理特 征。 6.根据权利要求3所述的案件相似度匹配方法, 其特征在于, 所述将第 一案件文本和第 二案件文本输入到基于主题词的文本向量的网络模型进行 处理, 以得到第一案件文本和 第 二案件文本的第三处 理特征, 包括: 对第一案件文本和第二案件文本的文本中的停用词通过停用词 词汇库进行 过滤; 对过滤后的文本的主题词进行提取; 记录提取的主题词对应的位置索引和重要性 程度; 通过专有词 词汇库对第一案件文本和第二案件文本的文本中的专有名词进行提取; 记录提取的专有名词对应的位置索引和重要性 程度; 将主题词的重要性程度和专有名词的重要性程度进行相加运算, 以得到第三处理特 征。 7.根据权利要求6所述的案件相似度匹配方法, 其特征在于, 所述对过滤后的文本的主 题词进行提取, 通过BERTopic模型 结合LDA模型对文本的主题词进行提取。 8.案件相似度匹配装置, 其特征在于, 包括获取单元、 生成单元、 选取单元、 处理单元以 及判定单 元; 所述获取 单元, 用于获取案件数据库中的案件判决书 文本; 所述生成单元, 用于从案件判决书文本中收集停用词汇和专用名词词汇, 并生成停用 词词汇库和专有词 词汇库; 所述选取单元, 用于从案件判决书文本 中选取需要进行相似度匹配的第 一案件文本和 第二案件文本; 所述处理单元, 用于将第一案件文本和第二案件文本输入到孪生网络中进行处理, 以 得到第一案件文本和第二案件文本的相似概 率值; 所述判定单元, 用于若第 一案件文本和第 二案件文本的相似概率值满足设定的相似阈 值, 则判定第一案件文本和第二案件文本为相似案件。 9.一种计算机设备, 其特征在于, 包括存储器、 处理器以及存储在所述存储器上并可在 所述处理器上运行的计算机程序, 所述处理器执行所述计算机程序时实现如权利要求 1~7 中任意一项所述的案件相似度匹配方法步骤。 10.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 所述计权 利 要 求 书 2/3 页 3 CN 114881028 A 3

.PDF文档 专利 案件相似度匹配方法、装置、计算机设备及存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 案件相似度匹配方法、装置、计算机设备及存储介质 第 1 页 专利 案件相似度匹配方法、装置、计算机设备及存储介质 第 2 页 专利 案件相似度匹配方法、装置、计算机设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:13:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。