说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111632891.9 (22)申请日 2021.12.28 (71)申请人 北京华宇元典信息服 务有限公司 地址 100080 北京市海淀区西小口路6 6号 东升科技园北 领地B2楼D301 (72)发明人 李东海 章毓文 石崇德 张博文  丁青青 朱婉云  (74)专利代理 机构 北京唐颂永信知识产权代理 有限公司 1 1755 代理人 刘伟 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/35(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01)G06K 9/62(2022.01) G06N 20/10(2019.01) G06Q 50/18(2012.01) (54)发明名称 用于争议焦点裁判文书的筛选的模型的训 练方法 (57)摘要 本申请涉及一种用于争议焦点裁判文书的 筛选的模型的训练方法、 争议焦点裁判文书的筛 选方法、 装置和电子设备。 该用于争议焦点裁判 文书的筛选的模 型的训练方法包括: 获取训练裁 判文书, 所述训练裁判文书包含小部分已标注样 本和大部分未标注样本; 对所述训练裁判文书进 行文本预处理和段落抽取; 从所述训练裁判文书 构建所述已标注样本的第一特征向量和所述未 标注样本的第二特征向量; 以及, 使用正未标记 学习策略, 将所述已标注样本作为正样本并将所 述未标注样 本作为负样本训练支持向量机模型, 所述支持向量机模型用于将裁判文书分类为是 否包含争议焦点。 这样, 可 以改进争议焦点裁判 文书的筛选方案。 权利要求书2页 说明书10页 附图4页 CN 114428847 A 2022.05.03 CN 114428847 A 1.一种用于争议焦点裁判文 书的筛选的模型的训练方法, 其特 征在于, 包括: 获取训练裁判文 书, 所述训练裁判文 书包含小部分已标注样本和大部分未 标注样本; 对所述训练裁判文 书进行文本预处 理和段落抽取; 从所述训练裁判文书构建所述已标注样本的第一特征向量和所述未标注样本的第二 特征向量; 以及 使用正未标记学习策略, 将所述已标注样本作为正样本并将所述未标注样本作为负样 本训练支持向量机模型, 所述支持向量机模型用于将裁判文 书分类为是否包 含争议焦点。 2.如权利要求1所述的用于争议焦点裁判 文书的筛选的模型的训练方法, 其特征在于, 所述文本预处 理包括数字统一 转换和/或标点符号统一。 3.如权利要求1所述的用于争议焦点裁判 文书的筛选的模型的训练方法, 其特征在于, 所述段落抽取包括通过文书分段模型从所述训练裁判文书中抽取对应的裁判分析过程段 和辩护段。 4.如权利要求1所述的用于争议焦点裁判 文书的筛选的模型的训练方法, 其特征在于, 从所述训练裁判文书构建所述已标注样本的第一特征向量和所述未标注样本的第二特征 向量包括: 基于裁判 文书是否包含争议焦点的段落类型和段落长度, 确定与争议焦点具有大于预 定阈值的相关度的文 书段落; 以及, 基于通过对争议焦点的句子进行分析和统计而获得的关键词和所述文书段落构建所 述已标注样本的第一特 征向量和所述未 标注样本的第二特 征向量。 5.如权利要求4所述的用于争议焦点裁判 文书的筛选的模型的训练方法, 其特征在于, 所述第一特征向量和所述第二特征向量包括如下特征及其权重: 裁判文书的段落个数, 裁 判分析过程段的长度, 辩护段落的长度, 裁判分析过程段中说理特征词的个数, 辩护段落中 说理特征词的个数。 6.如权利要求4所述的用于争议焦点裁判 文书的筛选的模型的训练方法, 其特征在于, 使用正未标记学习策略, 将所述已标注样本作为正样本并将所述未标注样本作为负样本训 练支持向量机模型包括: 步骤1, 将所述第一特 征向量作为 正特征向量并将所述第二特 征向量作为负特 征向量; 步骤2, 基于所述正特征向量和所述负特征向量确定所述支持向量机模型的几何间隔 最大的分离超平面; 步骤3, 确定与所述 正特征向量在所述分离超平面同一侧的候选负特 征向量; 步骤4, 将所述候选负特征向量中距离所述分离超平面大于预定距离阈值的候选负特 征向量转换为正特征向量; 以及, 步骤5, 迭代所述 步骤2到步骤4, 直到不再转换正特 征向量为止。 7.如权利要求4所述的用于争议焦点裁判 文书的筛选的模型的训练方法, 其特征在于, 在使用正未标记学习策略, 将所述已标注样本作为正样本并将所述未标注样本作为负样本 训练支持向量机模型之前进一 步包括: 基于所述已标注文本的第 一特征向量, 从未标注样本从选择具有与 所述第一特征向量 相似的特 征分布的样本作为所述已标注样本 。 8.一种争议焦点裁判文 书的筛选方法, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 114428847 A 2获取待筛 选的未标注的裁判文 书; 使用如权利要求1到7中任意一项所述的用于争议焦点裁判文书的筛选的模型获得所 述待筛选的未标注的裁判文书对应的特征向量与所述支持向量机的所述分离超平面的距 离值; 以及 基于所述距离值作为所述待筛选的未标注的裁判 文书包含争议焦点的置信度, 来对所 述裁判文 书进行是否包含争议焦点的筛 选。 9.一种用于争议焦点裁判文 书的筛选的模型的训练装置, 其特 征在于, 包括: 样本获取单元, 用于获取训练裁判文书, 所述训练裁判文书包含小部分已标注样本和 大部分未 标注样本; 预处理单元, 用于对所述训练裁判文 书进行文本预处 理和段落抽取; 特征提取单元, 用于从所述训练裁判 文书构建所述已标注样本的第 一特征向量和所述 未标注样本的第二特 征向量; 以及 模型训练单元, 用于使用正未标记学习策略, 将所述已标注样本作为正样本并将所述 未标注样本作为负样本训练支持向量机模型, 所述支持向量机模型用于将裁判文书分类为 是否包含争议焦点。 10.一种争议焦点裁判文 书的筛选装置, 其特 征在于, 包括: 文书获取单元, 用于获取待筛 选的未标注的裁判文 书; 距离确定单元, 用于使用如权利要求1到5中任意一项所述的用于争议焦点裁判文书的 筛选的模型获得所述待筛选的未标注的裁判文书对应的特征向量与所述支持向量机的所 述分离超平面的距离值; 以及 文书筛选单元, 用于基于所述距离值作为所述待筛选的未标注的裁判 文书包含争议焦 点的置信度, 来对所述裁判文 书进行是否包含争议焦点的筛 选。 11.一种电子设备, 其特 征在于, 包括: 处理器; 以及 存储器, 在所述存储器中存储有计算机程序指令, 所述计算机程序指令在所述处理器 运行时使得所述处理器执行如权利要求1到7中任意一项所述的用于争议焦点裁判文书的 筛选的模型的训练方法或者如权利要求8所述的争议焦点裁判文 书的筛选方法。 12.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序指令, 当所述计算机程序指令被计算装置执行时, 可操作来执行如权利要求1到7中任 意一项所述的用于争议焦点裁判文书的筛选的模型的训练方法或者如权利要求8所述的争 议焦点裁判文 书的筛选方法。权 利 要 求 书 2/2 页 3 CN 114428847 A 3

.PDF文档 专利 用于争议焦点裁判文书的筛选的模型的训练方法

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于争议焦点裁判文书的筛选的模型的训练方法 第 1 页 专利 用于争议焦点裁判文书的筛选的模型的训练方法 第 2 页 专利 用于争议焦点裁判文书的筛选的模型的训练方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:45:14上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。