说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111628616.X (22)申请日 2021.12.28 (71)申请人 中科曙光 南京研究院有限公司 地址 210000 江苏省南京市江宁区诚信大 道519号 (72)发明人 叶恺翔 吕晓宝 王元兵 王海荣  (74)专利代理 机构 南京苏高专利商标事务所 (普通合伙) 32204 专利代理师 徐博 (51)Int.Cl. G06F 16/335(2019.01) G06F 16/332(2019.01) G06F 16/35(2019.01) G06F 40/205(2020.01) G06K 9/62(2022.01) (54)发明名称 一种案件笔录要素抽取方法 (57)摘要 本发明公开了一种案件 笔录要素抽取方法, 首先利用现有案件的人工笔录要素数据, 构建序 列标注数据集; 对序列标注数据集内每条文本进 行数据预处理后, 用于对文本要素提取模型进行 训练, 获得用于对案件笔录要素提取的文本要素 提取模型; 最后在预测阶段, 笔录文本预处理后 输入已完成训练的文本要素提取模 型, 将文本数 据进行序列标注后, 对目标要素进行提取, 完成 案件笔录要素抽取。 利用关联模 型根据问题文本 判断对应回答文本中抽取的要素类型是否与问 题文本强相关, 完成进行结果校验。 该方法能够 自动提取案件 笔录文本中的要素, 辅助用户实现 智能化数据分析。 权利要求书2页 说明书4页 附图1页 CN 114461779 A 2022.05.10 CN 114461779 A 1.一种案件笔录要素抽取 方法, 其特 征在于: 该 方法包括 步骤如下: (1)利用现有案件的人工笔录要素 数据, 构建序列标注数据集; (2)对序列标注数据集内每条文本进行数据预处理后, 用于对文本要素提取模型进行 训练, 获得用于对案件笔录要素提取的文本要素提取模型; (3)在预测阶段, 笔录文本预处理后输入已完成训练的文本要素提取模型, 将文本数据 进行序列标注后, 对目标要素进行提取, 完成案件笔录要素抽取。 2.根据权利要求1所述的一种案件笔录要素抽取方法, 其特征在于: 所述的步骤(1)中 获取现有案件每条笔录文本对应的待抽取要素, 并标记每种要素 的类型, 将每条笔录文本 与其对应的要素文本进行匹配, 利用BIO标注模式将笔录文本每一个字符打上对应的要素 标签。 3.根据权利要求2所述的一种案件笔录要素抽取方法, 其特征在于: 当笔录文本与其对 应的要素文本进行匹配时, 若存在若干要素文本与同一笔录文本匹配, 则选取字符长度最 长的要素文本与笔录文本 完成匹配。 4.根据权利要求2所述的一种案件笔录要素抽取方法, 其特征在于: 所述的步骤(2)中 文本要素提取模 型包括Longformer模型, 预处理后的序列标注数据集内的笔录文本输入随 机参数初始化的Longformer模 型中对模型进行预训练, 用于使Longformer模型学习笔录文 本数据内的语言逻辑。 5.根据权利要求4所述的一种案件笔录要素抽取方法, 其特征在于: 预训后的 Longformer模型的输出端与CRF模型及输出大小为所有要素类别数量的全链接softmax层 连接, 形成用于判别每个位置要素类别的文本要素提取模型, 将预处理后的要素标注数据 输入文本要素提取模型对L ongformer模型参数进行微调, 直至模型损失满足设定要求。 6.根据权利要求4所述的一种案件笔录要素抽取方法, 其特征在于: 对序列 标注数据集 内每条文本进行Token编码处理, 并对每一句文本进行截断和补零处理直至每一句文本的 长度相同。 7.根据权利要求1所述的一种案件笔录要素抽取方法, 其特征在于: 所述的案件笔录文 本包括若干 问答文本结构, 训练完成的文本要素提取模型对案件笔录要素进行抽取后, 利 用关联模型根据问题文本判断对应回答文本中抽取的要素类型是否与问题文本强相关, 完 成进行结果校验。 8.根据权利要求7所述的一种案件笔录要素抽取方法, 其特征在于: 所述的关联模型采 用BERT预训练模型, 所述的BERT预训练模型的训练步骤如下: (a)针对数据集中的每篇笔录文本按照问和答的相关关键字进行分割, 形成问题文本 与回答文本集合, 将每个回答文本中的要 素文本进 行抽取, 判断对应的要 素类型, 形成要 素 类型集合, 将要素类型与对应的问题文本组合 拼接, 形成标签为1的训练正样本; (b)将每一个要素类型分别与两个随机问题文本配对拼接, 去除其中的正样本, 形成标 签为0的训练负 样本; (c)将训练正样本与训练负样本随机乱序, 输入BERT预训练模型中进行微调训练, 训练 过程中, 将BERT 预训练模 型的输出叠加全连接网络, 经过softmax函数, 输出标签为1或标签 为0的分值, 与真实的标签计算loss误差, 利用梯度下降算法, 更新模 型权重, 得到训练完成 的BERT预训练模型。权 利 要 求 书 1/2 页 2 CN 114461779 A 29.根据权利要求8所述的一种案件笔录要素抽取方法, 其特征在于: 所述的训练完成的 BERT预训练模型用于对文本要 素提取模型的结果集进 行校验, 将抽取得到的各要 素文本的 要素类型与所在问句 文本进行文本拼接, 输入BERT预训练模型, 若BERT预训练模型输出的 匹配分值小于设定值, 则在结果 集中删除该要素文本 。权 利 要 求 书 2/2 页 3 CN 114461779 A 3

.PDF文档 专利 一种案件笔录要素抽取方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种案件笔录要素抽取方法 第 1 页 专利 一种案件笔录要素抽取方法 第 2 页 专利 一种案件笔录要素抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:42:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。