专利一种建立财税优惠政策的信息抽取模型的方法和系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111639139.7 (22)申请日 2021.12.2 9 (71)申请人航天信息股份有限公司地址 100195 北京市海淀区杏石口路甲18 号 (72)发明人王亚平　林文辉　王志刚　刘振宇　杨硕　马兰　李瑞祥　 (74)专利代理机构北京工信联合知识产权代理有限公司 1 1266 专利代理师刘海蓉 (51)Int.Cl. G06F 40/279(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06Q 40/00(2012.01) (54)发明名称一种建立财税优惠政策的信息抽取模型的方法和系统 (57)摘要本发明实施例公开了一种建立财税优惠政策的信息抽取模型的方法和系统，所述方法包括：获取第一标注数据集，根据第一标注数据集生成最优第一层级信息抽取模型；获取第二标注数据集，根据第二标注数据集生成最优第二层级信息抽取模型，以及将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型，其中，最优第一层级信息抽取模型和最优第二层级信息抽取模型都是经过微调的Bert base后接CRF层。所述方法和系统通过为财税优惠政策信息的抽取设计一种双层级的Bert+CRF模型，有效解决了对信息进行识别时，由于自定义的种类多，且标注数据少带来的数据稀疏问题，有效提升了信息抽取的效率。权利要求书2页说明书9页附图2页 CN 114444483 A 2022.05.06 CN 114444483 A 1.一种建立财税优惠政策的信息抽取模型的方法，其特征在于，所述方法包括：步骤101、获取第一标注数据集，其中，所述第一标注数据集是按照预先设置的第一信息抽取内容对财税优惠政策信息进行标注后生成的数据集；步骤102、将第一标注数据集输入初始第一层级信息抽取模型进行模型训练，生成最优第一层级信息抽取模型，其中，所述初始第一层级信息抽取模型是公开的预训练模型Bert base后接初始第一CRF层，所述最优第一层级信息抽取模型是最优第一预训练模型Bert base后接最优第一CRF层，所述最优第一预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base，所述最优第一CRF层是对初始第一CRF层调整参数后得到的CRF层；步骤103、获取第二标注数据集，其中，所述第二标注数据集是按照预先设置的第二信息抽取内容对财税优惠政策信息进行标注后生成的数据集；步骤104、将第二标注数据集输入初始第二层级信息抽取模型进行模型训练，生成最优第二层级信息抽取模型，其中，所述初始第二层级信息抽取模型是初始第二预训练模型 Bert base后接初始第二CRF层，所述初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base，最优第二层级信息抽取模型是最优第二预训练模型Bert base后接最优第二CRF层，所述最优第二预训练模型Bert base是对初始第二预训练模型Bert base 进行微调得到的预训练模型Bert base，所述最优第二CRF层是对初始第二CRF层调整参数后得到的CRF层， N 为自然数；步骤105、将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型。 2.根据权利要求1所述的方法，其特征在于，在获取第一标注数据集之前还包括设置财税优惠政策信息的第一信息抽取内容和第二信息抽取内容，其中，第一信息抽取内容和第二信息抽取内容为key ‑value结构，且第二信息抽取内容的key值属于第一抽取信息内容的 value值。 3.根据权利要求1所述的方法，其特征在于，所述方法采用的公开的预训练模型Bert base的网络层数L ＝12，隐含层节点数H＝768， self ‑attention head数量A＝12。 4.根据权利要求3所述的方法，其特征在于，所述初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Ber t base，其中， N 值为6。 5.一种建立财税优惠政策的信息抽取模型的系统，其特征在于，所述系统包括：第一数据模块，用于获取第一标注数据集，其中，所述第一标注数据集是按照预先设置的第一信息抽取内容对财税优惠政策信息进行标注后生成的数据集；第一模型模块，用于将第一标注数据集输入初始第一层级信息抽取模型进行模型训练，生成最优第一层级信息抽取模型，其中，所述初始第一层级信息抽取模型是公开的预训练模型Bert base后接初始第一CRF层，所述最优第一层级信息抽取模型是最优第一预训练模型Bert base后接最优第一CRF层，所述最优第一预训练模型Bert base是对公开的预训练模型Bert base进行微调得到的预训练模型Bert base，所述最优第一CRF层是对初始第一CRF层调整参数后得到的CRF层；权　利　要　求　书 1/2 页 2 CN 114444483 A 2第二数据模块，用于获取第二标注数据集，其中，所述第二标注数据集是按照预先设置的第二信息抽取内容对财税优惠政策信息进行标注后生成的数据集；第二模型模块，用于将第二标注数据集输入初始第二层级信息抽取模型进行模型训练，生成最优第二层级信息抽取模型，其中，所述初始第二层级信息抽取模型是初始第二预训练模型Bert base后接初始第二CRF层，所述初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Bert base，最优第二层级信息抽取模型是最优第二预训练模型Bert base后接最优第二CRF层，所述最优第二预训练模型Bert base是对初始第二预训练模型 Bert base进行微调得到的预训练模型Bert base，所述最优第二CRF层是对初始第二CRF层调整参数后得到的CRF层， N 为自然数；模型生成模块，用于将最优第一层级信息抽取模型和最优第二层级信息抽取模型的组合作为财税优惠政策的信息抽取模型。 6.根据权利要求5所述的系统，其特征在于，所述系统还包括参数设置模块，用于设置财税优惠政策信息的第一信息抽取内容和第二信息抽取内容，其中，第一信息抽取内容和第二信息抽取内容为key ‑value结构，且第二信息抽取内容的key值属于第一抽取信息内容的value值。 7.根据权利要求5所述的系统，其特征在于，第一模型模块采用的公开的预训练模型 Bert base的网络层数L ＝12，隐含层节点数H＝768， self ‑attention head数量A＝12。 8.根据权利要求7所述的系统，其特征在于，所述第二模型模块中的初始第二预训练模型Bert base是将最优第一预训练模型Bert base的前N层的训练参数迁移到公开的预训练模型Bert base的前N层后得到的预训练模型Ber t base，其中， N 值为6。权　利　要　求　书 2/2 页 3 CN 114444483 A 3

专利 一种建立财税优惠政策的信息抽取模型的方法和系统

专利一种建立财税优惠政策的信息抽取模型的方法和系统