说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210535070.1 (22)申请日 2022.05.17 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 罗森林 程瑶 慕星星 吴舟婷  吴杭颐  (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称 融合知识提示的法律文本小样本命名实体 识别方法 (57)摘要 本发明涉及融合知识提示的法律文本小样 本命名实体识别方法, 属于自然语 言处理与机器 学习领域。 本发 明首先定义裁判文书的提示性模 板、 标签集和自然词集的映射关系, 从中国裁判 文书网平台获取了2760篇裁定书和判决书文档; 然后采用Bert模型对案件陈述和判决结果句子 的嵌入向量进行编码, 通过注 意力加权得到句子 的特征表 示, 结合构造的模板指导生成式预训练 模型GPT生成词的类别向量; 最后, 利用全连接层 将句子向量转化为跨度向量, 生成语义标签, 最 小化其与标签向量的损失函数。 本发 明有效缓解 了在法律领域下, 由于其标注样本较少、 与通用 领域的实体类型分布不同造成的过拟合与分类 不准确的问题, 提升了 法律实体识别的准确率和 模型的迁移能力。 权利要求书1页 说明书5页 附图1页 CN 115062104 A 2022.09.16 CN 115062104 A 1.融合知识提示的法律文本小样本命名实体识别方法, 其特征在于所述方法包括如下 步骤: 步骤1, 从中国裁判 文书网获取原始裁定书和判决书两类文书数据, 构建裁判文书的原 被告姓名、 案件属性、 依据法条、 责任承担与涉案财产五类命名实体, 通过去除停用词操作 得到处理后的民事案件裁 定书和判决书; 步骤2, 构建裁判文 书中的实体和非 实体知识模板、 标签词和自然词映射关系; 步骤3, 构 建裁判文书命名实体识别模型, 模型由B ert预训练模型、 GPT生成式预训练模 型、 全连接层组成, 将句子级裁判文书序列输入模 型中, Bert对句子进 行编码, 使用GPT模 型 解码, 结合提示模板微调预训练模型, 预测生 成掩码处的实体类别标签, 对每个实体的类别 进行标签映射, 构建损失函数优化标签分类结果。 2.根据权利要求1所述的融合知识提示的法律文本小样本命名实体识别方法, 其特征 在于: 步骤2中使用法律领域的模板Template=[T+, T‑]和语义空间的标签集来引导B ert预 训练模型, 依据裁判文书的原被告姓名、 案件属性、 依据法条、 责任承担与涉案财产五类实 体的特点, T+设为“[X1], [X2]是一个[MAS K]类实体 ”, T‑设为“[X1], [MAS K]不是一个实体 ”, [X1]表示句子级别的裁判文书 [X2]处是由预训练模型得到的实体特征向量, [MASK]处 是待预测生成的实体类别标签, 例如, 模板实例设置为 “[X1], 侵权纠纷系列案是一个 [MASK]实体 ”, 其中, 侵 权纠纷系列案是[X2]。 3.根据权利要求1所述的融合知识提示的法律文本小样本命名实体识别方法, 其特征 在于: 步骤3中生成文档的语义标签空间, 最小化损失函数, 优化标签 分类结果; 结合Bert预 训练模型最后一层的隐变量hn和法律模板Temp late, 利用GPT生成式预训练模型, 使用公式 h0=UWte+Wpe和 预测掩码处的实体类 型, U表示token嵌入 向量, Wte表示token嵌入矩阵, Wpe表示位置嵌入矩阵; 使用公式 计算属于第l类的token非归一化概率, ft, L(Xk; hn)表示第t个tok en是第L类的概率, k、 n分别 表示第k个句子和 第n个字; 生成语义标签空间的公 式是: 表示第k个句子的语义标签空间; mk, n表 示第k个句子中第n个to ken所属标签子空间, 由不同to ken的类别标签组成; 表示标签 分类的损失函数; 通过生成语义标签空间, 优化实体分类效果, 其中, l表示实体类别数, 若第k个句子中 第n个词的真实标签是l, 那么mk, n, l=1, 否则, mk, n, l=0; fn, l(Xk; h[MASK])表示模型预测出的第 n个词属于第l类实体的概 率, 提升了实体识别的召回率和模型的性能。权 利 要 求 书 1/1 页 2 CN 115062104 A 2融合知识提示的法律文本小样本命名实体识别方 法 技术领域 [0001]本发明涉及融合知识提示的法律文本小样本命名实体识别方法, 属于自然语言处 理与机器学习领域。 背景技术 [0002]命名实体识别是自然语言处理中的一项基础任务, 旨在从文本中获取实体并对其 标签分类, 它作为信息抽取、 机器翻译等下游任务的基础, 应用范围广泛。 目前, 命名实体识 别技术只是在有限的领域和实体类型中取得了较好的成绩, 但这些技术无法很好地迁移到 其他特定领域中。 [0003]随着特定领域自然语言处理任务的需求不断增加, 在法律领域应用命名实体识别 方法获取原被告姓名、 案件属性、 依据法条、 责任承担与涉案财产等具备领域特点的实体, 能够辅助法官决策实现智慧法庭。 因此, 研究法律领域下 的命名实体识别任务是具有应用 价值的。 [0004]目前基于法律文本的命名实体识别方法包括三类: 基于领域相似文本表示的方 法, 它依赖源域和法律领域的相似的文本表示, 未充分考虑法律领域实体的特殊性; 基于领 域词典的方法, 考虑模型迁移能力, 但人工设置领域词典的成本较高; 基于神经网络CNN、 RNN、 LSTM以及Bert预训练模型的方法, 例如应用于法律领域实体识别任务中的Bert ‑ BiLSTM‑CRF主流模型, 但是该方法缺少高质量的法律领域样本, 识别法律实体的准确率不 高, 训练模型成本较高, 因此针对法律小样本命名实体识别的研究仍然存在挑战。 [0005]综上所述, 现有的法律文本的命名实体识别方法主要存在以下问题: (1)基于文本 相似性表示的方法, 没有更新网络参数, 不能改善跨域实例表示, 降低了领域适配能力, 同 时未充分考虑实体标签的深层语义信息; (2)基于领域词典的方法是利用枚举生成候选实 体, 存在严重的效率问题, 未充分挖掘法律实体标签间关系; (3)公开的法律文本数据集较 少, 同时模型训练时依赖标注语料, 在小样本上训练时容 易造成过拟合问题。 发明内容 [0006]本发明的目的是融合提示学习方法, 对法律领域小样本构造模板, 借助模板对预 训练模型微调, 优化标签分类效果。 针对法律领域的实体边界及其类型分布和通用领域中 的实体有较大差别的问题, 本发明通过引入法律领域的专业知识构建实体和非实体知识模 板, 用知识模板指导预训练模型, 进行提示与微调, 优化分类器, 将标签映射到更广泛的语 义空间上, 避免了深度学习模型重新训练参数, 同时减少了对标注数据的需求, 充分利用了 模板中实体和标签 语义信息, 提升语言模型的小样本学习潜力。 [0007]本发明的设计原理为: 首先, 从中国裁判文书网获取裁判文书原始数据, 对裁判文 书预处理; 其次, 人工定义裁判文书的正样本模板和负样本模板, 定义标签集和自然词集; 最后, 构建裁判文书命名实体识别模 型, 将句子级别的裁判文书输入Bert预训练模型, 输出 句子特征向量, 裁判文书向量与模板向量连接后使用GPT生 成式预训练模型解码, 对模板中说 明 书 1/5 页 3 CN 115062104 A 3

.PDF文档 专利 融合知识提示的法律文本小样本命名实体识别方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合知识提示的法律文本小样本命名实体识别方法 第 1 页 专利 融合知识提示的法律文本小样本命名实体识别方法 第 2 页 专利 融合知识提示的法律文本小样本命名实体识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。