专利 结构化数据识别方法、装置、设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111681433.4 (22)申请日 2021.12.28 (71)申请人深信服科技股份有限公司地址 518055 广东省深圳市南山区学苑大道1001号南山智园A1栋 (72)发明人王晓波　陈柏林　张盼　尚保林　位凯志　古亮　 (74)专利代理机构北京派特恩知识产权代理有限公司 1 1270 代理人孙静　胡春光 (51)Int.Cl. G06F 40/216(2020.01) G06F 40/295(2020.01) G06F 40/30(2020.01) G06F 16/33(2019.01)G06F 16/35(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) (54)发明名称结构化数据识别方法、装置、设备和存储介质 (57)摘要本申请公开了一种结构化数据识别方法、装置、设备和存储介质，方法包括：基于待训练的第一深度学习模型，对训练样本集合中每一训练样本进行特征提取，得到第一样本特征集合；基于第二深度学习模型，对训练样本集合中每一训练样本进行特征提取，得到第二样本特征集合；将每一训练样本的第一样本特征和对应的第二样本特征，确定为正样本对；将每一训练样本的第一样本特征和负样本字典中对应的每一第三样本特征，确定为负样本对；基于每一正样本对中两样本特征之间的第一相似度和每一负样本对中两样本特征之间的第二相似度，确定损失函数值；基于损失函数值，对待训练的第一深度学习模型的参数权重进行更新，得到训练完成的第一深度学习模型。权利要求书3页说明书21页附图3页 CN 114417829 A 2022.04.29 CN 114417829 A 1.一种结构化数据识别方法，其特征在于，所述方法包括：基于待训练的第一深度学习模型，对训练样本集合中每一训练样本进行特征提取，得到第一样本特征集合；所述每一训练样本为结构化的且无标签的样本数据；基于第二深度学习模型，对所述训练样本集合中每一训练样本进行特征提取，得到第二样本特征集合；将每一所述训练样本的第一样本特征和对应的第二样本特征，确定为对应训练样本的正样本对；将每一所述训练样本的第一样本特征和负样本字典中对应的每一所述第三样本特征，确定为对应训练样本的负样本对；基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样本特征之间的第二相似度，确定损失函数值；基于所述损失函数值，对所述待训练的第一深度学习模型的参数权重进行更新，得到训练完成的第一深度学习模型。 2.根据权利要求1所述的方法，其特征在于，所述训练样本集合属于第一领域；所述第二深度学习模型是采用所述第一领域的样本数据训练而成，或者，采用不同于所述第一领域的第二领域的样本数据训练而成；或者，所述第二深度学习模型是未训练的，通过所述训练样本集合中的训练样本训练的。 3.根据权利要求1所述的方法，其特征在于，所述第一深度学习模型的模型架构与所述第二深度学习模型的模型架构相同或不同；和/或，所述第一深度学习模型的参数的数量小于所述第二深度学习模型的参数的数量。 4.根据权利要求1所述的方法，其特征在于，所述损失函数值与所述第一相似度成反比，且与所述第二相似度成正比。 5.根据权利要求2所述的方法，其特征在于，所述第二深度学习模型是未训练的，所述方法还包括：基于所述损失函数值，利用动量更新法对所述第二深度模型的参数权重进行更新，得到训练完成的第二深度模型。 6.根据权利要求1至5任一项所述的方法，其特征在于，所述基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样本特征之间的第二相似度，确定损失函数值，包括：基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样本特征之间的第二相似度，确定每一所述正样本对对应的训练样本的样本权重；根据每一所述训练样本的样本权重、对应的第一相似度、对应的第二相似度、预设尺度值和预设间隔值确定损失函数值。 7.根据权利要求6所述的方法，其特征在于，所述基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样本特征之间的第二相似度，确定每一所述正样本对对应的训练样本的样本权重，包括：根据每一所述第一相似度、对应第二相似度和所述预设间隔值，确定对应指示函数值；所述指示函数值用于表征训练样本是否被分类正确；权　利　要　求　书 1/3 页 2 CN 114417829 A 2在每一所述指示函数值小于或等于预设阈值的情况下，增大对应训练样本的样本权重。 8.根据权利要求1至 5任一项所述的方法，其特征在于，所述方法还包括：确定每一所述正样本对中两个样本特征的第一点积；确定对应负样本对中两个样本特征的第二点积；根据每一所述第一点积，确定对应正样本对中两个样本特征的第一相似度；根据每一所述第二点积，确定对应负样本对中两个样本特征的第二相似度。 9.根据权利要求1至5中任一项所述的方法，其特征在于，所述待训练的第一深度学习模型包括 N个子模块，每一所述子模块包括批归一化层、全连接层、激活层和Dropout层；所述基于待训练的第一深度学习模型，对训练样本集合中每一训练样本进行特征提取，得到第一样本特征集合，包括：基于第1子模块，对训练样本集合中每一训练样本进行特征提取，得到对应第1中间样本特征；基于第i子模块，对每一所述第i ‑1中间样本特征进行特征提取，得到对应第i中间样本特征； i大于等于2且小于等于N；将第N子模块提取的样本特征确定为第一样本特征。 10.根据权利要求1至 5中任一项所述的方法，其特征在于，所述方法还包括：获取至少一个原始结构化数据；读取每一所述原始结构化数据中的每列数据；对每列数据进行数据采样处理和数据过滤处理，得到处理后的每列数据；对处理后的每列数据进行特征提取，得到每列数据对应的训练样本；基于每一所述训练样本，生成所述训练样本集合。 11.根据权利要求10所述的方法，其特征在于，所述训练样本至少包括以下三项：字符分布特征、全局统计特征和词向量特征。 12.根据权利要求1至 5中任一项所述的方法，其特征在于，所述方法还包括：随机生成第一数量个初始样本特征；采用队列更新方式，用第二数量个第四样本特征替换掉所述第二数量个初始样本特征，得到第三样本特征；基于所述第三样本特征，生成更新后的负样本字典。 13.根据权利要求1至5中任一项所述的方法，其特征在于，所述基于所述损失函数值，对所述待训练的第一深度学习模型的参数权重进行更新，得到训练完成的第一深度学习模型，包括：基于所述损失函数值，利用梯度下降法对所述待训练的第一深度学习模型的参数权重进行更新，得到训练完成的第一深度学习模型。 14.一种结构化数据识别，所述装置包括：第一提取模块，用于基于待训练的第一深度学习模型，对训练样本集合中每一训练样本进行特征提取，得到第一样本特征集合；所述每一训练样本为结构化的且无标签的样本数据；第二提取模块，用于基于第二深度学习模型，对所述训练样本集合中每一训练样本进权　利　要　求　书 2/3 页 3 CN 114417829 A 3

专利 结构化数据识别方法、装置、设备和存储介质

专利结构化数据识别方法、装置、设备和存储介质