专利案件相似度匹配方法、装置、计算机设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210646944.0 (22)申请日 2022.06.08 (71)申请人深圳市赛为智能股份有限公司地址 518000 广东省深圳市龙岗区南湾街道下李朗社区联李东路8号赛为大楼 A101至15楼 (72)发明人胡懋成　王秋阳　郑博超　凤阳　 (74)专利代理机构深圳市精英专利事务所 44242 专利代理师周永敬 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/216(2020.01) G06F 40/30(2020.01) (54)发明名称案件相似度匹配方法、装置、计算机设备及存储介质 (57)摘要本发明实施例公开了一种案件相似度匹配方法、装置、计算机设备及存储介质，方法包括；获取案件数据库中的案件判决书文本；从案件判决书文本中收集停用词汇和专用名词词汇，并生成停用词词汇库和专有词词汇库；从案件判决书文本中选取需要进行相似度匹配的第一案件文本和第二案件文本；将第一案件文本和第二案件文本输入到孪生网络中进行处理，以得到第一案件文本和第二案件文本的相似概率值；若第一案件文本和第二案件文本的相似概率值满足设定的相似阈值，则判定第一案件文本和第二案件文本为相似案件。本发明提升了案件相似度匹配的有效性和准确性。权利要求书3页说明书13页附图2页 CN 114881028 A 2022.08.09 CN 114881028 A 1.案件相似度匹配方法，其特征在于，包括：获取案件数据库中的案件判决书文本；从案件判决书文本中收集停用词汇和专用名词词汇，并生成停用词词汇库和专有词词汇库；从案件判决书文本中选取需要进行相似度匹配的第一案件文本和第二案件文本；将第一案件文本和第二案件文本输入到孪生网络中进行处理，以得到第一案件文本和第二案件文本的相似概率值；若第一案件文本和第二案件文本的相似概率值满足设定的相似阈值，则判定第一案件文本和第二案件文本为相似案件。 2.根据权利要求1所述的案件相似度匹配方法，其特征在于，所述将第一案件文本和第二案件文本输入到孪生网络中进行处理，以得到第一案件文本和第二案件文本的相似概率值，所述孪生网络包括基于ERNIE的文本向量的网络模型、基于WordGCN图的文本向量的网络模型以及基于主题词的文本向量的网络模型。 3.根据权利要求2所述的案件相似度匹配方法，其特征在于，所述所述将第一案件文本和第二案件文本输入到孪生网络中进行处理，以得到第一案件文本和第二案件文本的相似概率值，包括：将第一案件文本和第二案件文本输入到基于ERNIE的文本向量的网络模型中进行处理，以得到第一案件文本和第二案件文本的第一处理特征；将第一案件文本和第二案件文本输入到基于WordGCN图的文本向量的网络模型进行处理，以得到第一案件文本和第二案件文本的第二处理特征；将第一案件文本和第二案件文本输入到基于主题词的文本向量的网络模型进行处理，以得到第一案件文本和第二案件文本的第三处理特征；将第一案件文本和第二案件文本的第一处理特征和第一案件文本和第二案件文本的第二处理特征进行co ncate合并处理，以得到第一案件文本和第二案件文本的合并特征；将第一案件文本和第二案件文本的合并特征输入到全连接层处理，以得到第一案件文本和第二案件文本的全连接层处理特征；将第一案件文本和第二案件文本的全连接层处理特征与第一案件文本和第二案件文本的第三处理特征进行乘法运算，以得到第一案件文本和第二案件文本的文本语义表征特征；对第一案件文本和第二案件文本的文本语义表征特征进行全连接层和激活函数处理，以得到第一案件文本和第二案件文本的文本抽象语义表征；将第一案件文本和第二案件文本的文本抽象语义表征经过维度为1的全连接层的矩阵以及sigmo id激活函数处理，以得到第一案件文本和第二案件文本的相似概率值。 4.根据权利要求3所述的案件相似度匹配方法，其特征在于，所述将第一案件文本和第二案件文本输入到基于ERNIE的文本向量的网络模型中进行处理，以得到第一案件文本和第二案件文本的第一处理特征，包括：根据第一案件文本和第二案件文本中文本内容的断句符号进行语句切分；通过分词工具并结合停用词词汇库和专有词词汇库对语句进行分词，以得到分词数据；权　利　要　求　书 1/3 页 2 CN 114881028 A 2通过ERNIE基于MLM对分词数据进行处理，以得到每个词的词向量；将每一句话中的每个词的词向量进行求和运算，以得到句向量的特征向量；将文本内容的所有句向量的特征向量通过Bi ‑LSTM进行concate融合，以得到第一案件文本和第二案件文本的第一处理特征。 5.根据权利要求3所述的案件相似度匹配方法，其特征在于，所述将第一案件文本和第二案件文本输入到基于WordGCN图的文本向量的网络模型进行处理，以得到第一案件文本和第二案件文本的第二处理特征，包括：通过WordGCN模型中的句子层级和语料层级中的词与词之间的关系对第一案件文本和第二案件文本的单词进行编码，以得到词向量；根据词向量构建语句向量；将语句向量输入到Bi ‑GRU进行处理，以得到第一案件文本和第二案件文本第二处理特征。 6.根据权利要求3所述的案件相似度匹配方法，其特征在于，所述将第一案件文本和第二案件文本输入到基于主题词的文本向量的网络模型进行处理，以得到第一案件文本和第二案件文本的第三处理特征，包括：对第一案件文本和第二案件文本的文本中的停用词通过停用词词汇库进行过滤；对过滤后的文本的主题词进行提取；记录提取的主题词对应的位置索引和重要性程度；通过专有词词汇库对第一案件文本和第二案件文本的文本中的专有名词进行提取；记录提取的专有名词对应的位置索引和重要性程度；将主题词的重要性程度和专有名词的重要性程度进行相加运算，以得到第三处理特征。 7.根据权利要求6所述的案件相似度匹配方法，其特征在于，所述对过滤后的文本的主题词进行提取，通过BERTopic模型结合LDA模型对文本的主题词进行提取。 8.案件相似度匹配装置，其特征在于，包括获取单元、生成单元、选取单元、处理单元以及判定单元；所述获取单元，用于获取案件数据库中的案件判决书文本；所述生成单元，用于从案件判决书文本中收集停用词汇和专用名词词汇，并生成停用词词汇库和专有词词汇库；所述选取单元，用于从案件判决书文本中选取需要进行相似度匹配的第一案件文本和第二案件文本；所述处理单元，用于将第一案件文本和第二案件文本输入到孪生网络中进行处理，以得到第一案件文本和第二案件文本的相似概率值；所述判定单元，用于若第一案件文本和第二案件文本的相似概率值满足设定的相似阈值，则判定第一案件文本和第二案件文本为相似案件。 9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求 1～7 中任意一项所述的案件相似度匹配方法步骤。 10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计权　利　要　求　书 2/3 页 3 CN 114881028 A 3

专利 案件相似度匹配方法、装置、计算机设备及存储介质

专利案件相似度匹配方法、装置、计算机设备及存储介质