专利融合知识提示的法律文本小样本命名实体识别方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210535070.1 (22)申请日 2022.05.17 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人罗森林　程瑶　慕星星　吴舟婷　吴杭颐　 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/295(2020.01) G06F 40/30(2020.01) (54)发明名称融合知识提示的法律文本小样本命名实体识别方法 (57)摘要本发明涉及融合知识提示的法律文本小样本命名实体识别方法，属于自然语言处理与机器学习领域。本发明首先定义裁判文书的提示性模板、标签集和自然词集的映射关系，从中国裁判文书网平台获取了2760篇裁定书和判决书文档；然后采用Bert模型对案件陈述和判决结果句子的嵌入向量进行编码，通过注意力加权得到句子的特征表示，结合构造的模板指导生成式预训练模型GPT生成词的类别向量；最后，利用全连接层将句子向量转化为跨度向量，生成语义标签，最小化其与标签向量的损失函数。本发明有效缓解了在法律领域下，由于其标注样本较少、与通用领域的实体类型分布不同造成的过拟合与分类不准确的问题，提升了法律实体识别的准确率和模型的迁移能力。权利要求书1页说明书5页附图1页 CN 115062104 A 2022.09.16 CN 115062104 A 1.融合知识提示的法律文本小样本命名实体识别方法，其特征在于所述方法包括如下步骤：步骤1，从中国裁判文书网获取原始裁定书和判决书两类文书数据，构建裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类命名实体，通过去除停用词操作得到处理后的民事案件裁定书和判决书；步骤2，构建裁判文书中的实体和非实体知识模板、标签词和自然词映射关系；步骤3，构建裁判文书命名实体识别模型，模型由B ert预训练模型、 GPT生成式预训练模型、全连接层组成，将句子级裁判文书序列输入模型中， Bert对句子进行编码，使用GPT模型解码，结合提示模板微调预训练模型，预测生成掩码处的实体类别标签，对每个实体的类别进行标签映射，构建损失函数优化标签分类结果。 2.根据权利要求1所述的融合知识提示的法律文本小样本命名实体识别方法，其特征在于：步骤2中使用法律领域的模板Template＝[T+， T‑]和语义空间的标签集来引导B ert预训练模型，依据裁判文书的原被告姓名、案件属性、依据法条、责任承担与涉案财产五类实体的特点， T+设为“[X1]， [X2]是一个[MAS K]类实体 ”， T‑设为“[X1]， [MAS K]不是一个实体 ”， [X1]表示句子级别的裁判文书 [X2]处是由预训练模型得到的实体特征向量， [MASK]处是待预测生成的实体类别标签，例如，模板实例设置为 “[X1]，侵权纠纷系列案是一个 [MASK]实体 ”，其中，侵权纠纷系列案是[X2]。 3.根据权利要求1所述的融合知识提示的法律文本小样本命名实体识别方法，其特征在于：步骤3中生成文档的语义标签空间，最小化损失函数，优化标签分类结果；结合Bert预训练模型最后一层的隐变量hn和法律模板Temp late，利用GPT生成式预训练模型，使用公式 h0＝UWte+Wpe和预测掩码处的实体类型， U表示token嵌入向量， Wte表示token嵌入矩阵， Wpe表示位置嵌入矩阵；使用公式计算属于第l类的token非归一化概率， ft， L(Xk； hn)表示第t个tok en是第L类的概率， k、 n分别表示第k个句子和第n个字；生成语义标签空间的公式是：表示第k个句子的语义标签空间； mk， n表示第k个句子中第n个to ken所属标签子空间，由不同to ken的类别标签组成；表示标签分类的损失函数；通过生成语义标签空间，优化实体分类效果，其中， l表示实体类别数，若第k个句子中第n个词的真实标签是l，那么mk， n， l＝1，否则， mk， n， l＝0； fn， l(Xk； h[MASK])表示模型预测出的第 n个词属于第l类实体的概率，提升了实体识别的召回率和模型的性能。权　利　要　求　书 1/1 页 2 CN 115062104 A 2融合知识提示的法律文本小样本命名实体识别方法技术领域 [0001]本发明涉及融合知识提示的法律文本小样本命名实体识别方法，属于自然语言处理与机器学习领域。背景技术 [0002]命名实体识别是自然语言处理中的一项基础任务，旨在从文本中获取实体并对其标签分类，它作为信息抽取、机器翻译等下游任务的基础，应用范围广泛。目前，命名实体识别技术只是在有限的领域和实体类型中取得了较好的成绩，但这些技术无法很好地迁移到其他特定领域中。 [0003]随着特定领域自然语言处理任务的需求不断增加，在法律领域应用命名实体识别方法获取原被告姓名、案件属性、依据法条、责任承担与涉案财产等具备领域特点的实体，能够辅助法官决策实现智慧法庭。因此，研究法律领域下的命名实体识别任务是具有应用价值的。 [0004]目前基于法律文本的命名实体识别方法包括三类：基于领域相似文本表示的方法，它依赖源域和法律领域的相似的文本表示，未充分考虑法律领域实体的特殊性；基于领域词典的方法，考虑模型迁移能力，但人工设置领域词典的成本较高；基于神经网络CNN、 RNN、 LSTM以及Bert预训练模型的方法，例如应用于法律领域实体识别任务中的Bert ‑ BiLSTM‑CRF主流模型，但是该方法缺少高质量的法律领域样本，识别法律实体的准确率不高，训练模型成本较高，因此针对法律小样本命名实体识别的研究仍然存在挑战。 [0005]综上所述，现有的法律文本的命名实体识别方法主要存在以下问题： (1)基于文本相似性表示的方法，没有更新网络参数，不能改善跨域实例表示，降低了领域适配能力，同时未充分考虑实体标签的深层语义信息； (2)基于领域词典的方法是利用枚举生成候选实体，存在严重的效率问题，未充分挖掘法律实体标签间关系； (3)公开的法律文本数据集较少，同时模型训练时依赖标注语料，在小样本上训练时容易造成过拟合问题。发明内容 [0006]本发明的目的是融合提示学习方法，对法律领域小样本构造模板，借助模板对预训练模型微调，优化标签分类效果。针对法律领域的实体边界及其类型分布和通用领域中的实体有较大差别的问题，本发明通过引入法律领域的专业知识构建实体和非实体知识模板，用知识模板指导预训练模型，进行提示与微调，优化分类器，将标签映射到更广泛的语义空间上，避免了深度学习模型重新训练参数，同时减少了对标注数据的需求，充分利用了模板中实体和标签语义信息，提升语言模型的小样本学习潜力。 [0007]本发明的设计原理为：首先，从中国裁判文书网获取裁判文书原始数据，对裁判文书预处理；其次，人工定义裁判文书的正样本模板和负样本模板，定义标签集和自然词集；最后，构建裁判文书命名实体识别模型，将句子级别的裁判文书输入Bert预训练模型，输出句子特征向量，裁判文书向量与模板向量连接后使用GPT生成式预训练模型解码，对模板中说　明　书 1/5 页 3 CN 115062104 A 3

专利 融合知识提示的法律文本小样本命名实体识别方法

专利融合知识提示的法律文本小样本命名实体识别方法