专利 一种案件笔录要素抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111628616.X (22)申请日 2021.12.28 (71)申请人中科曙光南京研究院有限公司地址 210000 江苏省南京市江宁区诚信大道519号 (72)发明人叶恺翔　吕晓宝　王元兵　王海荣　 (74)专利代理机构南京苏高专利商标事务所 (普通合伙) 32204 专利代理师徐博 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/205(2020.01) G06K 9/62(2022.01) (54)发明名称一种案件笔录要素抽取方法 (57)摘要本发明公开了一种案件笔录要素抽取方法，首先利用现有案件的人工笔录要素数据，构建序列标注数据集；对序列标注数据集内每条文本进行数据预处理后，用于对文本要素提取模型进行训练，获得用于对案件笔录要素提取的文本要素提取模型；最后在预测阶段，笔录文本预处理后输入已完成训练的文本要素提取模型，将文本数据进行序列标注后，对目标要素进行提取，完成案件笔录要素抽取。利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关，完成进行结果校验。该方法能够自动提取案件笔录文本中的要素，辅助用户实现智能化数据分析。权利要求书2页说明书4页附图1页 CN 114461779 A 2022.05.10 CN 114461779 A 1.一种案件笔录要素抽取方法，其特征在于：该方法包括步骤如下： (1)利用现有案件的人工笔录要素数据，构建序列标注数据集； (2)对序列标注数据集内每条文本进行数据预处理后，用于对文本要素提取模型进行训练，获得用于对案件笔录要素提取的文本要素提取模型； (3)在预测阶段，笔录文本预处理后输入已完成训练的文本要素提取模型，将文本数据进行序列标注后，对目标要素进行提取，完成案件笔录要素抽取。 2.根据权利要求1所述的一种案件笔录要素抽取方法，其特征在于：所述的步骤(1)中获取现有案件每条笔录文本对应的待抽取要素，并标记每种要素的类型，将每条笔录文本与其对应的要素文本进行匹配，利用BIO标注模式将笔录文本每一个字符打上对应的要素标签。 3.根据权利要求2所述的一种案件笔录要素抽取方法，其特征在于：当笔录文本与其对应的要素文本进行匹配时，若存在若干要素文本与同一笔录文本匹配，则选取字符长度最长的要素文本与笔录文本完成匹配。 4.根据权利要求2所述的一种案件笔录要素抽取方法，其特征在于：所述的步骤(2)中文本要素提取模型包括Longformer模型，预处理后的序列标注数据集内的笔录文本输入随机参数初始化的Longformer模型中对模型进行预训练，用于使Longformer模型学习笔录文本数据内的语言逻辑。 5.根据权利要求4所述的一种案件笔录要素抽取方法，其特征在于：预训后的 Longformer模型的输出端与CRF模型及输出大小为所有要素类别数量的全链接softmax层连接，形成用于判别每个位置要素类别的文本要素提取模型，将预处理后的要素标注数据输入文本要素提取模型对L ongformer模型参数进行微调，直至模型损失满足设定要求。 6.根据权利要求4所述的一种案件笔录要素抽取方法，其特征在于：对序列标注数据集内每条文本进行Token编码处理，并对每一句文本进行截断和补零处理直至每一句文本的长度相同。 7.根据权利要求1所述的一种案件笔录要素抽取方法，其特征在于：所述的案件笔录文本包括若干问答文本结构，训练完成的文本要素提取模型对案件笔录要素进行抽取后，利用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关，完成进行结果校验。 8.根据权利要求7所述的一种案件笔录要素抽取方法，其特征在于：所述的关联模型采用BERT预训练模型，所述的BERT预训练模型的训练步骤如下： (a)针对数据集中的每篇笔录文本按照问和答的相关关键字进行分割，形成问题文本与回答文本集合，将每个回答文本中的要素文本进行抽取，判断对应的要素类型，形成要素类型集合，将要素类型与对应的问题文本组合拼接，形成标签为1的训练正样本； (b)将每一个要素类型分别与两个随机问题文本配对拼接，去除其中的正样本，形成标签为0的训练负样本； (c)将训练正样本与训练负样本随机乱序，输入BERT预训练模型中进行微调训练，训练过程中，将BERT 预训练模型的输出叠加全连接网络，经过softmax函数，输出标签为1或标签为0的分值，与真实的标签计算loss误差，利用梯度下降算法，更新模型权重，得到训练完成的BERT预训练模型。权　利　要　求　书 1/2 页 2 CN 114461779 A 29.根据权利要求8所述的一种案件笔录要素抽取方法，其特征在于：所述的训练完成的 BERT预训练模型用于对文本要素提取模型的结果集进行校验，将抽取得到的各要素文本的要素类型与所在问句文本进行文本拼接，输入BERT预训练模型，若BERT预训练模型输出的匹配分值小于设定值，则在结果集中删除该要素文本。权　利　要　求　书 2/2 页 3 CN 114461779 A 3

专利 一种案件笔录要素抽取方法

专利一种案件笔录要素抽取方法