说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111639139.7 (22)申请日 2021.12.2 9 (71)申请人 航天信息股份有限公司 地址 100195 北京市海淀区杏石口路甲18 号 (72)发明人 王亚平 林文辉 王志刚 刘振宇  杨硕 马兰 李瑞祥  (74)专利代理 机构 北京工信联合知识产权代理 有限公司 1 1266 专利代理师 刘海蓉 (51)Int.Cl. G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 40/00(2012.01) (54)发明名称 一种建立财税优惠政策的信息抽取模型的 方法和系统 (57)摘要 本发明实施例公开了一种建立财税优惠政 策的信息抽取模型的方法和系统, 所述方法包 括: 获取第一标注数据集, 根据第一标注数据集 生成最优第一层级信息抽取模型; 获取第二标注 数据集, 根据第二标注数据集生成最优第二层级 信息抽取模 型, 以及将最优第一层级信息抽取模 型和最优第二层级信息抽取模型的组合作为财 税优惠政策的信息抽取模型, 其中, 最优第一层 级信息抽取模型和最优第二层级信息抽取模型 都是经过微调的Bert  base后接CRF层。 所述方法 和系统通过为财税优惠政策信息的抽取设计一 种双层级的Bert+CRF模型, 有效解决了对信息进 行识别时, 由于自定义的种类多, 且标注数据少 带来的数据稀 疏问题, 有效提升了信息抽取的效 率。 权利要求书2页 说明书9页 附图2页 CN 114444483 A 2022.05.06 CN 114444483 A 1.一种建立财税 优惠政策的信息抽取模型的方法, 其特 征在于, 所述方法包括: 步骤101、 获取第一标注数据集, 其中, 所述第一标注数据集是按照预先设置的第一信 息抽取内容对财税 优惠政策信息进行 标注后生成的数据集; 步骤102、 将第一标注数据集输入初始第一层级信 息抽取模型进行模型训练, 生成最优 第一层级信息抽取模型, 其中, 所述初始第一层级信息抽取模型是公开的预训练模型Bert   base后接初始第一CRF层, 所述最优第一层级信息抽取模型是最优第一预训练模型Bert   base后接最优第一CRF层, 所述最优第一预训练模型Bert  base是对公开的预训练模型Bert   base进行微调得到的预训练模型Bert  base, 所述最优第一CRF层是对初始第一CRF层调整 参数后得到的CRF层; 步骤103、 获取第二标注数据集, 其中, 所述第二标注数据集是按照预先设置的第二信 息抽取内容对财税 优惠政策信息进行 标注后生成的数据集; 步骤104、 将第二标注数据集输入初始第二层级信 息抽取模型进行模型训练, 生成最优 第二层级信息抽取模型, 其中, 所述初始第二层级信息抽取模型是初始第二预训练模型 Bert base后接初始第二CRF层, 所述初始第二预训练模型Bert  base是将最优第一预训练 模型Bert  base的前N层的训练参数迁移到公开的预训练模型Bert  base的前N层后得到的 预训练模型Bert  base, 最优第二层 级信息抽取模型是最优第二预训练模 型Bert base后接 最优第二CRF层, 所述最优第二预训练模型Bert  base是对初始第二预训练模型Bert  base 进行微调得到的预训练模型Bert  base, 所述最优第二CRF层是对初始第二CRF层调整参数 后得到的CRF层, N 为自然数; 步骤105、 将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财 税优惠政策的信息抽取模型。 2.根据权利要求1所述的方法, 其特征在于, 在获取第 一标注数据集之前还包括设置财 税优惠政策信息的第一信息抽取内容和第二信息抽取内容, 其中, 第一信息抽取内容和第 二信息抽取内容为key ‑value结构, 且第二信息抽取内容的key值属于第一抽取信息内容的 value值。 3.根据权利要求1所述的方法, 其特征在于, 所述方法采用的公开的预训练模型Bert   base的网络层数L =12, 隐含层节点数H=768, self ‑attention head数量A=12。 4.根据权利要求3所述的方法, 其特征在于, 所述初始第二预训练模型Bert  base是将 最优第一预训练模 型Bert base的前N层的训练参数迁移到公开的预训练模 型Bert base的 前N层后得到的预训练模型Ber t base, 其中, N 值为6。 5.一种建立财税 优惠政策的信息抽取模型的系统, 其特 征在于, 所述系统包括: 第一数据模块, 用于获取第 一标注数据集, 其中, 所述第 一标注数据集是按照预先设置 的第一信息抽取内容对财税 优惠政策信息进行 标注后生成的数据集; 第一模型模块, 用于将第一标注数据集输入初始第一层级信息抽取模型进行模型训 练, 生成最优第一层级信息抽取模型, 其中, 所述初始第一层级信息抽取模型是公开的预训 练模型Bert base后接初始第一CRF层, 所述最优第一层 级信息抽取模 型是最优第一预训练 模型Bert  base后接最优第一CRF层, 所述最优第一预训练模型Bert  base是对公开的预训 练模型Bert  base进行微调得到的预训练模型Bert  base, 所述最优第一CRF层是对初始第 一CRF层调整参数后得到的CRF层;权 利 要 求 书 1/2 页 2 CN 114444483 A 2第二数据模块, 用于获取第 二标注数据集, 其中, 所述第 二标注数据集是按照预先设置 的第二信息抽取内容对财税 优惠政策信息进行 标注后生成的数据集; 第二模型模块, 用于将第二标注数据集输入初始第二层级信息抽取模型进行模型训 练, 生成最优第二层级信息抽取模型, 其中, 所述初始第二层级信息抽取模型是初始第二预 训练模型Bert  base后接初始第二CRF层, 所述初始第二预训练模型Bert  base是将最优第 一预训练模型Bert  base的前N层的训练参数迁移到公开的预训练模型Bert  base的前N层 后得到的预训练模型Bert  base, 最优第二层级信息抽取模型是最优第二预训练模型Bert   base后接最优第二CRF层, 所述最优第二预训练模型Bert  base是对初始第二预训练模型 Bert base进行微调得到的预训练模型Bert  base, 所述最优第二CRF层是对初始第二CRF层 调整参数后得到的CRF层, N 为自然数; 模型生成模块, 用于将最优第 一层级信 息抽取模型和最优第 二层级信 息抽取模型的组 合作为财税 优惠政策的信息抽取模型。 6.根据权利要求5所述的系统, 其特征在于, 所述系统还包括参数设置模块, 用于设置 财税优惠政策信息的第一信息抽取内容和第二信息抽取内容, 其中, 第一信息抽取内容和 第二信息抽取内容为key ‑value结构, 且第二信息抽取内容的key值属于第一抽取信息内容 的value值。 7.根据权利要求5所述的系统, 其特征在于, 第一模型模块采用的公开的预训练模型 Bert base的网络层数L =12, 隐含层节点数H=768, self ‑attention head数量A=12。 8.根据权利要求7所述的系统, 其特征在于, 所述第 二模型模块中的初始第 二预训练模 型Bert base是将最优第一预训练模型Bert  base的前N层的训练参数迁移到公开的预训练 模型Bert base的前N层后得到的预训练模型Ber t base, 其中, N 值为6。权 利 要 求 书 2/2 页 3 CN 114444483 A 3

.PDF文档 专利 一种建立财税优惠政策的信息抽取模型的方法和系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种建立财税优惠政策的信息抽取模型的方法和系统 第 1 页 专利 一种建立财税优惠政策的信息抽取模型的方法和系统 第 2 页 专利 一种建立财税优惠政策的信息抽取模型的方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。