(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111681433.4
(22)申请日 2021.12.28
(71)申请人 深信服科技股份有限公司
地址 518055 广东省深圳市南 山区学苑大
道1001号南山智园A1栋
(72)发明人 王晓波 陈柏林 张盼 尚保林
位凯志 古亮
(74)专利代理 机构 北京派特恩知识产权代理有
限公司 1 1270
代理人 孙静 胡春光
(51)Int.Cl.
G06F 40/216(2020.01)
G06F 40/295(2020.01)
G06F 40/30(2020.01)
G06F 16/33(2019.01)G06F 16/35(2019.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
(54)发明名称
结构化数据识别方法、 装置、 设备和存储介
质
(57)摘要
本申请公开了一种结构化数据 识别方法、 装
置、 设备和存储介质, 方法包括: 基于待训练的第
一深度学习模 型, 对训练样本集合中每一训练样
本进行特征提取, 得到第一样本特征集合; 基于
第二深度学习模 型, 对训练样 本集合中每一训练
样本进行特征提取, 得到第二样本特征集合; 将
每一训练样本的第一样本特征和对应的第二样
本特征, 确定为正样本对; 将每一训练样本的第
一样本特征和负样本字典中对应的每一第三样
本特征, 确定为负样本对; 基于每一正样本对中
两样本特征之间的第一相似度和每一负样本对
中两样本特征之间的第二相似度, 确定损失函数
值; 基于损失函数值, 对待训练的第一深度学习
模型的参数权重进行更新, 得到训练完成的第一
深度学习模型。
权利要求书3页 说明书21页 附图3页
CN 114417829 A
2022.04.29
CN 114417829 A
1.一种结构化数据识别方法, 其特 征在于, 所述方法包括:
基于待训练的第一深度学习模型, 对训练样本集合中每一训练样本进行特征提取, 得
到第一样本特 征集合; 所述每一训练样本为结构化的且无 标签的样本数据;
基于第二深度学习模型, 对所述训练样本集合中每一训练样本进行特征提取, 得到第
二样本特 征集合;
将每一所述训练样本的第 一样本特征和对应的第 二样本特征, 确定为对应训练样本的
正样本对; 将每一所述训练样本的第一样本特征和负样本字典中对应的每一所述第三样本
特征, 确定为对应训练样本的负 样本对;
基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样
本特征之间的第二相似度, 确定损失函数值;
基于所述损 失函数值, 对所述待训练的第一深度学习模型的参数权重进行更新, 得到
训练完成的第一深度学习模型。
2.根据权利要求1所述的方法, 其特 征在于, 所述训练样本集 合属于第一领域;
所述第二深度学习模型是采用所述第一领域的样本数据训练而成, 或者, 采用不同于
所述第一领域的第二领域的样本数据训练而成;
或者, 所述第二深度学习模型是未训练的, 通过所述训练样本集合中的训练样本训练
的。
3.根据权利要求1所述的方法, 其特征在于, 所述第 一深度学习模型的模型架构与 所述
第二深度学习模型的模型架构相同或不同;
和/或,
所述第一深度学习模型的参数的数量小于所述第二深度学习模型的参数的数量。
4.根据权利要求1所述的方法, 其特征在于, 所述损失函数值与所述第一相似度成反
比, 且与所述第二相似度成正比。
5.根据权利要求2所述的方法, 其特征在于, 所述第二深度学习模型是未训练的, 所述
方法还包括:
基于所述损 失函数值, 利用动量更新法对所述第二深度模型的参数权重进行更新, 得
到训练完成的第二深度模型。
6.根据权利要求1至5任一项所述的方法, 其特征在于, 所述基于每一所述正样本对中
两样本特征之 间的第一相似度和每一所述负样本对中两样本特征之 间的第二相似度, 确定
损失函数值, 包括:
基于每一所述正样本对中两样本特征之间的第一相似度和每一所述负样本对中两样
本特征之间的第二相似度, 确定每一所述 正样本对 对应的训练样本的样本 权重;
根据每一所述训练样本的样本权重、 对应的第 一相似度、 对应的第二相似度、 预设尺度
值和预设间隔值确定损失函数值。
7.根据权利要求6所述的方法, 其特征在于, 所述基于每一所述正样本对中两样本特征
之间的第一相似度和每一所述负样本对中两样本特征之 间的第二相似度, 确定每一所述正
样本对对应的训练样本的样本 权重, 包括:
根据每一所述第 一相似度、 对应第 二相似度和所述预设间隔值, 确定对应指示函数值;
所述指示 函数值用于表征训练样本是否被分类正确;权 利 要 求 书 1/3 页
2
CN 114417829 A
2在每一所述指示函数值小于或等于预设阈值的情况下, 增大对应训练样本的样本权
重。
8.根据权利要求1至 5任一项所述的方法, 其特 征在于, 所述方法还 包括:
确定每一所述 正样本对中两个样本特 征的第一 点积;
确定对应负 样本对中两个样本特 征的第二 点积;
根据每一所述第一 点积, 确定对应正样本对中两个样本特 征的第一相似度;
根据每一所述第二 点积, 确定对应负 样本对中两个样本特 征的第二相似度。
9.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述待训练的第一深度学习
模型包括 N个子模块, 每一所述子模块包括批归一 化层、 全连接层、 激活层和Dropout层;
所述基于待训练的第一深度学习模型, 对训练样本集合中每一训练样本进行特征提
取, 得到第一样本特 征集合, 包括:
基于第1子模块, 对训练样本集合中每一训练样本进行特征提取, 得到对应第1中间样
本特征;
基于第i子模块, 对每一所述第i ‑1中间样本特征进行特征提取, 得到对应第i中间样本
特征; i大于等于2且小于等于N;
将第N子模块 提取的样本特 征确定为第一样本特 征。
10.根据权利要求1至 5中任一项所述的方法, 其特 征在于, 所述方法还 包括:
获取至少一个原 始结构化数据;
读取每一所述原 始结构化数据中的每列数据;
对每列数据进行 数据采样处 理和数据过 滤处理, 得到处 理后的每列数据;
对处理后的每列数据进行 特征提取, 得到每列数据对应的训练样本;
基于每一所述训练样本, 生成所述训练样本集 合。
11.根据权利要求10所述的方法, 其特征在于, 所述训练样本至少包括以下三项: 字符
分布特征、 全局统计特 征和词向量特 征。
12.根据权利要求1至 5中任一项所述的方法, 其特 征在于, 所述方法还 包括:
随机生成第一数量个初始样本特 征;
采用队列更新方式, 用第二数量个第四样本特征替换掉所述第二数量个初始样本特
征, 得到第三样本特 征;
基于所述第三样本特 征, 生成更新后的负 样本字典。
13.根据权利要求1至5中任一项所述的方法, 其特征在于, 所述基于所述损 失函数值,
对所述待训练的第一深度学习模型的参数权重进 行更新, 得到训练完成的第一深度学习模
型, 包括:
基于所述损失函数值, 利用梯度下降法对所述待训练的第 一深度学习模型的参数权重
进行更新, 得到训练完成的第一深度学习模型。
14.一种结构化数据识别, 所述装置包括:
第一提取模块, 用于基于待训练的第一深度学习模型, 对训练样本集合中每一训练样
本进行特征提取, 得到第一样本特征集合; 所述每一训练样本为结构化的且无标签的样本
数据;
第二提取模块, 用于基于第二深度学习模型, 对所述训练样本集合中每一训练样本进权 利 要 求 书 2/3 页
3
CN 114417829 A
3
专利 结构化数据识别方法、装置、设备和存储介质
文档预览
中文文档
28 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共28页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:31上传分享