说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210601737.3 (22)申请日 2022.05.30 (71)申请人 深圳壹账通智能科技有限公司 地址 518000 广东省深圳市前海深港合作 区前湾一路1号A栋201室(入驻深圳市 前海商务秘书 有限公司) (72)发明人 范诗剑 朱昱锦 徐亮  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G06V 30/412(2022.01) G06V 30/413(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01)G06V 30/418(2022.01) G06V 30/40(2022.01) G06N 3/04(2006.01) G06N 20/00(2019.01) (54)发明名称 基于神经网络模 型的表格类型判定方法、 设 备及介质 (57)摘要 本申请涉及涉及人工智能技术领域, 提供了 一种基于神经网络模型的表格类型判定方法、 系 统、 设备及存储介质。 包括: 将第一表单信息输入 矫正网络, 得第一矫正结果信息输入框架特征提 取网络, 得第一表格线特征信息和第一单元格特 征信息; 第一表 格线特征信息构建第一定位坐标 系, 将第一单元格特征信息输入生成第一单元格 定位信息遍历第一单元格集合进行行列向量标 识, 得第一单元格行向量和第一单元格列向量输 入行列特征提取网络, 得第一语义特征信息和第 一布局特征信息输入表格类型识别网络进行表 格类型优化筛选, 得第一筛选结果生成第一表格 类型判定结果。 本申请还涉及区块链技术领域, 上述表格 类型可以存储于一区块链的节点中。 权利要求书3页 说明书13页 附图3页 CN 114882515 A 2022.08.09 CN 114882515 A 1.一种基于神经网络模型的表格类型判定方法, 其特征在于, 所述神经网络模型包括 矫正网络、 框架特 征提取网络、 行列特 征提取网络及表格 类型识别网络, 所述方法包括: 将第一表单信息 输入矫正网络, 获得第一 矫正结果信息; 将所述第一矫正结果信息输入框架特征提取网络, 获得第一表格框架特征信息, 所述 第一表格框架特 征信息包括第一表格线特 征信息和第一单 元格特征信息; 根据所述第 一表格线特征信 息构建第 一定位坐标系, 将所述第 一单元格特征信 息输入 所述第一定位 坐标系, 生成第一单 元格定位信息; 基于所述第 一单元格定位信 息遍历所述第 一单元格集合进行行列向量标识, 生成第 一 单元格行向量和第一单 元格列向量; 将所述第一单元格行向量和所述第 一单元格列向量输入行列 特征提取网络, 获得第 一 行列特征信息, 所述第一行列特 征信息包括第一语义特 征信息和第一布局特 征信息; 将所述第一语义特征信息和所述第一布局特征信息输入表格类型识别网络进行表格 类型优化筛 选, 获得第一筛 选结果; 根据所述第一筛 选结果, 生成第一表格 类型判定结果。 2.如权利要求1所述的方法, 其特征在于, 所述将所述第 一单元格行向量和所述第 一单 元格列向量输入行列特 征提取网络, 获得第一行列特 征信息, 包括: 根据所述行列特 征提取网络, 获得 行向量特 征提取网络和列向量特 征提取网络; 将所述第一单 元格行向量输入所述行向量特 征提取网络, 获得第一行 特征信息; 将所述第一单 元格列向量输入所述列向量特 征提取网络, 获得第一列向量特 征信息; 对所述第一行特征信 息和所述第 一列向量特征信 息进行行列 特征融合, 获得所述第 一 行列特征信息。 3.如权利要求2所述的方法, 其特征在于, 所述对所述第 一行特征信 息和所述第 一列向 量特征信息进行 行列特征融合, 获得 所述第一行列特 征信息, 包括: 获得第一线性层和第二线性层, 其中, 所述第 一线性层用来进行语义内容匹配, 所述第 二线性层用来进行语义内容分类; 基于注意力 机制将所述第 一行特征信 息输入所述第 一线性层, 获得第 一语义内容匹配 结果, 其中, 所述第一语义内容匹配结果包括第一行相邻语义内容; 基于注意力 机制将所述第 一列特征信 息输入所述第 一线性层, 获得第 二语义内容匹配 结果, 其中, 所述第二语义内容匹配结果包括第一列相邻语义内容; 将同一坐标位置的所述第一行相邻语义内容和所述第一列相邻语义内容输入所述第 二线性层, 获得第一主体特 征信息、 第一 客体特征信息、 第一属性特 征信息; 将所述第一主体特征信息、 所述第一客体特征信息、 所述第一属性特征信息添加进所 述第一语义特 征信息。 4.如权利要求2所述的方法, 其特征在于, 所述对所述第 一行特征信 息和所述第 一列向 量特征信息进行 行列特征融合, 获得 所述第一行列特 征信息, 包括: 获得第三线性层和第四线性层, 其中, 所述第 三线性层用于进行布局形式匹配, 所述第 四线性层用于进行布局形式分类; 基于注意力 机制将所述第 一行特征信 息输入所述第 三线性层, 获得第 一布局形式匹配 结果, 其中, 所述第一布局形式匹配结果包括第一行相邻单 元格布局形式信息;权 利 要 求 书 1/3 页 2 CN 114882515 A 2基于注意力 机制将所述第 一列特征信 息输入所述第 三线性层, 获得第 二布局形式匹配 结果, 其中, 所述第二布局形式匹配结果包括第一列相邻单 元格布局形式信息; 将同一坐标位置处的所述第一行相邻单元格布局形式信息和所述第一列相邻单元格 布局形式信息 输入所述第四线性层, 生成第一布局形式分类信息; 将所述第一布局形式分类信息添加进所述第一布局特 征信息。 5.如权利要求1所述的方法, 其特征在于, 所述将所述第 一语义特征信 息和所述第 一布 局特征信息输入表格 类型识别网络进行表格 类型优化筛 选, 获得第一筛 选结果, 包括: 基于大数据, 根据所述第一布局特征信息进行表格类型匹配, 获得第一表格类型匹配 集合; 根据所述第一表格 类型匹配集 合, 构建第一优化筛 选空间; 将所述第一语义特 征信息输入所述第一优化筛 选空间, 获得 所述第一筛 选结果。 6.如权利要求5所述的方法, 其特征在于, 所述根据所述第一表格类型匹配集合, 构建 第一优化筛 选空间, 包括: 获得第一匹配度计算公式: 其中, Pn指的是第n表格类型对输入语义特征下的匹配概率, f1n表示第n表格类型在本 地表格类型匹配中对输入语义特征下的选择频率, f2n表示第n表格类型在大数据表格类型 匹配中对输入语义特征下的选择频率, α、 β 为表征f1n和f2n权重的自定义比例参数, N为表格 类型数量; 根据所述第 一匹配度计算公式和所述第 一表格类型匹配集合, 构建所述第 一优化筛选 空间。 7.如权利要求6所述的方法, 其特征在于, 所述将所述第 一语义特征信 息输入所述第 一 优化筛选空间, 获得 所述第一筛 选结果, 包括: 获得第一约束函数: 当Pn+1‑Pn≥0时, T=1 当Pn+1‑Pn<0时, 其中, T表示从所述第n表格 类型转移至第n+1表格 类型的接受度; 在Pn+1‑Pn<0时, 当T≥第一预设接受度, 接受所述第n+1表格 类型。 8.一种基于神经网络模型的表格 类型判定系统, 其特 征在于, 所述系统包括: 第一获得 单元, 用于将第一表单信息 输入矫正网络, 获得第一 矫正结果信息; 第二获得单元, 用于将所述第一矫正结果信息输入框架特征提取网络, 获得第一表格 框架特征信息, 所述第一表格框架特征信息包括第一表格线 特征信息和 第一单元格特征信 息; 第一生成单元, 用于根据所述第一表格线特征信息构建第一定位坐标系, 将所述第一 单元格特征信息输入所述第一定位 坐标系, 生成第一单 元格定位信息; 第二生成单元, 用于基于所述第 一单元格定位信 息遍历所述第 一单元格集合进行行列 向量标识, 生成第一单 元格行向量和第一单 元格列向量;权 利 要 求 书 2/3 页 3 CN 114882515 A 3

.PDF文档 专利 基于神经网络模型的表格类型判定方法、设备及介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于神经网络模型的表格类型判定方法、设备及介质 第 1 页 专利 基于神经网络模型的表格类型判定方法、设备及介质 第 2 页 专利 基于神经网络模型的表格类型判定方法、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:29上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。