专利基于深度学习模型的法律文书语义相似度评估方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210809525.4 (22)申请日 2022.07.11 (65)同一申请的已公布的文献号申请公布号 CN 114881043 A (43)申请公布日 2022.08.09 (73)专利权人四川大学地址 610000 四川省成都市一环路南一段 24号 (72)发明人房景鑫　罗以宁　李旭伟　刘怡光　 (74)专利代理机构成都四合天行知识产权代理有限公司 51274 专利代理师郭受刚 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01)G06F 16/35(2019.01) G06F 40/186(2020.01) G06F 40/205(2020.01) G06K 9/62(2022.01) (56)对比文件 CN 113869005 A,2021.12.31 CN 114239539 A,202 2.03.25 US 2022164655 A1,202 2.05.26 审查员郑诗嘉 (54)发明名称基于深度学习模型的法律文书语义相似度评估方法及系统 (57)摘要本发明公开了基于深度学习模型的法律文书语义相似度评估方法及系统，包括：步骤一、获取目标法律文书和候选法律文书，并获取目标法律文书和候选法律文书各自的样本、句向量及词向量；步骤二、在语义相似度计算模型中对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广；步骤三、基于语义相似度计算模型和增广后的数据，对目标法律文书与候选法律文书语义相似度进行计算；步骤四、获得目标法律文书与候选法律文书语义相似度计算结果。本发明应用时对目标法律文书和候选法律文书语义相似度计算时操作便捷，且能提升评判的准确性。权利要求书2页说明书8页附图2页 CN 114881043 B 2022.11.18 CN 114881043 B 1.基于深度学习模型的法律文书语义相似度评估方法，其特征在于，包括：步骤一、获取目标法律文书和候选法律文书，并获取目标法律文书和候选法律文书各自的样本、句向量及词向量；步骤二、在语义相似度计算模型中对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广；步骤三、基于语义相似度计算模型和增广后的数据，对目标法律文书与候选法律文书语义相似度进行计算；步骤四、获得目标法律文书与候选法律文书语义相似度计算结果；所述步骤二中数据增广采用的方法包括截断、双重丢弃及提示学习；所述截断采用的方式为：针对法律文书截取不同的摘要形成多个样本，其中，摘要为设定数量的完整句子；所述双重丢弃采用的方式为：将每一个句子输入同一个编码器，使用不同的dropout 获得两个语义相同的句向量；所述提示学习采用的方式为：通过创建含[MASK]的语句的方式创建Promot模板，将原始法律文书结合prompt模板得到新的句子，将其输入至BERT_UER模型，经处理得到词向量和句向量；其中， prompt模板在[MASK]位置后面预测单词，所述prompt模板采用以下构造：这份判决书： {TEXT}[SEP]总结是[MASK]；通过Prompt得到句子的句向量，在处理数据时，先对输入文本按照设定策略进行分词，将分词结果替换为这些词在词典中的索引， [MASK]是一个词， [S EP]是模型能够处理的一个特殊字符，其意义在于提醒模型上面一句话和下面一句话有分隔关系；所述语义相似度计算模型基于融合GCN特征的BERT_UER模型实现，其将 TextGCN 扩展为特征提取器。 2.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法，其特征在于，所述融合GCN特征包括编码模块和GCN模块两个模块， GCN模块构建在编码模块之上；训练与使用融入GCN特征的语义相似度计算模型包括以下三个步骤：构建异质图，异质图包含标注数据与未标注数据，词节点与文档节点，采用编码模块初始化文档节点；联合训练编码模块与GCN模块；使用训练后的融入GCN特征的语义相似度计算模型进行推理。 3.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法，其特征在于，还包括采用CAI L2019数据集对语义相似度计算模型进行训练，所述训练步骤包括：使用CAIL2019数据集语料库中的所有法律文书和法律文书中的词对节点进行建模，并使用词到词和词到法律文书的边连接节点，然后使特征信息在语料库通过 GCN 学习进行交互，从而利用语料库级别的整体结构信息；所述CAIL2019数据集语料库中的数据集分为3 个子数据集分别单独进行实验来模拟真实低资源场景下的学习。 4.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法，其特征在于，还包括将句向量和词向量转化为数字，其转化步骤为：（a）分词，将输入的成段文本分解为模型词典最小建模单位，其中，中文以字或词为最小单位，英文以词为最小单位；权　利　要　求　书 1/2 页 2 CN 114881043 B 2（b）标记化，将上一步处理的最小单位变为其在词典中的索引；（c）向量化，为字典中每一个字生成一个词向量，每一个词向量为一个一维向量，使用索引在所有的词向量中查找，找到对应的词向量，每段话包含多个字，将多个字的词向量拼接起来得到句向量。 5.根据权利要求1～4中任意一项所述的基于深度学习模型的法律文书语义相似度评估方法，其特征在于，所述候选法律文书有两份以上时，所述步骤四还包括比对所有候选法律文书与目标法律文书的相似度大小，并获得相似度最大的候选法律文书。 6.实现权利要求1～5中任意一项所述的基于深度学习模型的法律文书语义相似度评估方法的系统，其特征在于，包括：文书获取模块，用于获取目标法律文书和候选法律文书，并获取目标法律文书和候选法律文书各自的样本、句向量及词向量；数据处理模块，用于对目标法律文书和候选法律文书两者的样本、句向量及词向量进行数据增广；相似度计算模块，用于接收增广后的数据，对目标法律文书与候选法律文书语义相似度进行计算，并输出语义相似度计算结果；所述数据增广采用的方法包括截断、双重丢弃及提示学习；所述截断采用的方式为：针对法律文书截取不同的摘要形成多个样本，其中，摘要为设定数量的完整句子；所述双重丢弃采用的方式为：将每一个句子输入同一个编码器，使用不同的dropout 获得两个语义相同的句向量；所述提示学习采用的方式为：通过创建含[MASK]的语句的方式创建Promot模板，将原始法律文书结合prompt模板得到新的句子，将其输入至BERT_UER模型，经处理得到词向量和句向量；其中， prompt模板在[MASK]位置后面预测单词，所述prompt模板采用以下构造：这份判决书： {TEXT}[SEP]总结是[MASK]；通过Prompt得到句子的句向量，在处理数据时，先对输入文本按照设定策略进行分词，将分词结果替换为这些词在词典中的索引， [MASK]是一个词， [S EP]是模型能够处理的一个特殊字符，其意义在于提醒模型上面一句话和下面一句话有分隔关系；所述语义相似度计算模型基于融合GCN特征的BERT_UER模型实现，其将 TextGCN 扩展为特征提取器。权　利　要　求　书 2/2 页 3 CN 114881043 B 3

专利 基于深度学习模型的法律文书语义相似度评估方法及系统

专利基于深度学习模型的法律文书语义相似度评估方法及系统