说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210809525.4 (22)申请日 2022.07.11 (65)同一申请的已公布的文献号 申请公布号 CN 114881043 A (43)申请公布日 2022.08.09 (73)专利权人 四川大学 地址 610000 四川省成 都市一环路南 一段 24号 (72)发明人 房景鑫 罗以宁 李旭伟 刘怡光  (74)专利代理 机构 成都四合天行知识产权代理 有限公司 51274 专利代理师 郭受刚 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/284(2020.01)G06F 16/35(2019.01) G06F 40/186(2020.01) G06F 40/205(2020.01) G06K 9/62(2022.01) (56)对比文件 CN 113869005 A,2021.12.31 CN 114239539 A,202 2.03.25 US 2022164655 A1,202 2.05.26 审查员 郑诗嘉 (54)发明名称 基于深度学习模型的法律文书语义相似度 评估方法及系统 (57)摘要 本发明公开了基于深度学习模型的法律文 书语义相似度评估方法及系统, 包括: 步骤一、 获 取目标法律文书和候选 法律文书, 并获取目标法 律文书和候选法律文书各自的样 本、 句向量及词 向量; 步骤二、 在语义相似度计算模型中对目标 法律文书和候选法律文书两者的样 本、 句向量及 词向量进行数据增广; 步骤三、 基于语义相似度 计算模型和增广后的数据, 对目标法律文书与候 选法律文书语义相似度进行计算; 步骤四、 获得 目标法律文书与候选法律文书语义相似度计算 结果。 本发 明应用时对目标法律文书和候选法律 文书语义相似度计算时操作便捷, 且能提升评判 的准确性。 权利要求书2页 说明书8页 附图2页 CN 114881043 B 2022.11.18 CN 114881043 B 1.基于深度学习模型的法律文 书语义相似度评估方法, 其特 征在于, 包括: 步骤一、 获取目标法律文书和候选法律文书, 并获取目标法律文书和候选法律文书各 自的样本、 句向量及词向量; 步骤二、 在语义相似度计算模型中对目标法律文书和候选法律文书两者的样本、 句向 量及词向量进行 数据增广; 步骤三、 基于语义相似度计算模型和增广后的数据, 对目标法律文书与候选法律文书 语义相似度进行计算; 步骤四、 获得目标法律文 书与候选法律文 书语义相似度计算结果; 所述步骤二中数据增广采用的方法包括截断、 双重 丢弃及提 示学习; 所述截断采用的方式为: 针对法律文书截取不同的摘要形成多个样本, 其中, 摘要为设 定数量的完整句子; 所述双重丢弃采用的方式为: 将每一个句子输入同一个编码器, 使用不同的dropout 获 得两个语义相同的句向量; 所述提示学习采用的方式为: 通过创建含[MASK]的语句的方式创建Promot模板, 将原 始法律文书结合prompt模板得到新的句子, 将其输入至BERT_UER模型, 经处理得到词向量 和句向量; 其中, prompt模板在[MASK]位置后面预测单词, 所述prompt模板采用以下构造: 这份判决书: {TEXT}[SEP]总结是[MASK]; 通过Prompt得到句子的句向量, 在处理数据时, 先 对输入文本按照 设定策略进行分词, 将分词结果替换为这些词在词典中的索引, [MASK]是 一个词, [S EP]是模型能够处理的一个特殊字符, 其意义在于提醒模型上面一句话和下面一 句话有分隔关系; 所述语义相似度计算模型基于融合GCN特征的BERT_UER模型实现, 其将  TextGCN 扩展 为特征提取器。 2.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法, 其特征 在于, 所述融合GCN特征包括编码模块和GCN模块两个模块, GCN模块构建在编码模块之上; 训练与使用融入GCN特 征的语义相似度计算模型包括以下三个步骤: 构建异质图, 异质图包含标注数据与未标注数据, 词 节点与文档节点, 采用编码模块初 始化文档节点; 联合训练编码模块与GCN模块; 使用训练后的融入GCN特 征的语义相似度计算模型进行推理。 3.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法, 其特征 在于, 还包括采用CAI L2019数据集对语义相似度计算模型进行训练, 所述训练步骤 包括: 使用CAIL2019数据集语料库中的所有法律文书和法律文书中的词对节点进行建模, 并 使用词到词和词到法律文书的边连接节点, 然后使特征信息在语料库通过  GCN 学习进行 交互, 从而利用语料库级别的整体结构信息; 所述CAIL2019数据集语料库中的数据集分为3 个子数据集分别单独进行实验来模拟真实低资源场景 下的学习。 4.根据权利要求1所述的基于深度学习模型的法律文书语义相似度评估方法, 其特征 在于, 还包括将句向量和词向量 转化为数字, 其 转化步骤为: (a) 分词, 将输入的成段文本分解为模型词典最小建模单位, 其中, 中文以字或词为最 小单位, 英文以词为 最小单位;权 利 要 求 书 1/2 页 2 CN 114881043 B 2(b) 标记化, 将上一 步处理的最小单位变为 其在词典中的索引; (c) 向量化, 为字典中每一个字生成一个词向量, 每一个词向量为一个一维向量, 使用 索引在所有的词向量中查找, 找到对应的词向量, 每段话包含多个字, 将多个字的词向量拼 接起来得到句向量。 5.根据权利要求1~4中任意一项所述的基于深度学习模型的法律文书语义相似度评 估方法, 其特征在于, 所述候选 法律文书有两份以上时, 所述步骤四还包括比对 所有候选法 律文书与目标法律文 书的相似度大小, 并获得相似度最大的候选法律文 书。 6.实现权利要求1~5中任意一项所述的基于深度学习模型的法律文书语义相似度评 估方法的系统, 其特 征在于, 包括: 文书获取模块, 用于获取目标法律文书和候选法律文书, 并获取目标法律文书和候选 法律文书各自的样本、 句向量及词向量; 数据处理模块, 用于对目标法律文书和候选法律文书两者的样本、 句向量及词向量进 行数据增广; 相似度计算模块, 用于接收增广后的数据, 对目标法律文书与候选法律文书语义相似 度进行计算, 并输出语义相似度计算结果; 所述数据增广采用的方法包括截断、 双重 丢弃及提 示学习; 所述截断采用的方式为: 针对法律文书截取不同的摘要形成多个样本, 其中, 摘要为设 定数量的完整句子; 所述双重丢弃采用的方式为: 将每一个句子输入同一个编码器, 使用不同的dropout 获 得两个语义相同的句向量; 所述提示学习采用的方式为: 通过创建含[MASK]的语句的方式创建Promot模板, 将原 始法律文书结合prompt模板得到新的句子, 将其输入至BERT_UER模型, 经处理得到词向量 和句向量; 其中, prompt模板在[MASK]位置后面预测单词, 所述prompt模板采用以下构造: 这份判决书: {TEXT}[SEP]总结是[MASK]; 通过Prompt得到句子的句向量, 在处理数据时, 先 对输入文本按照 设定策略进行分词, 将分词结果替换为这些词在词典中的索引, [MASK]是 一个词, [S EP]是模型能够处理的一个特殊字符, 其意义在于提醒模型上面一句话和下面一 句话有分隔关系; 所述语义相似度计算模型基于融合GCN特征的BERT_UER模型实现, 其将  TextGCN 扩展 为特征提取器。权 利 要 求 书 2/2 页 3 CN 114881043 B 3

.PDF文档 专利 基于深度学习模型的法律文书语义相似度评估方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度学习模型的法律文书语义相似度评估方法及系统 第 1 页 专利 基于深度学习模型的法律文书语义相似度评估方法及系统 第 2 页 专利 基于深度学习模型的法律文书语义相似度评估方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:11:56上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。