说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210567020.1 (22)申请日 2022.05.23 (71)申请人 招商银行股份有限公司 地址 518000 广东省深圳市福田区深南大 道7088招商银行 大厦 (72)发明人 黄勇  (74)专利代理 机构 深圳市世纪恒程知识产权代 理事务所 4 4287 专利代理师 刘锡滨 (51)Int.Cl. G06F 16/957(2019.01) G06F 40/151(2020.01) G06Q 40/02(2012.01) (54)发明名称 数据处理方法、 设备及计算机可读存 储介质 (57)摘要 本发明公开了一种数据处理方法、 设备及计 算机可读存储介质, 其中, 方法包括: 在HTML文档 的HTML元素中, 确定银行流水文档中各个表头名 称对应的表头HTML元素以及各个表文文本对应 的表文HTML元素; 基于表头HTML元素以及表文 HTML元素, 确定各个表头名称和各个表文文本在 银行流水文档中的位置信息; 基于所述HTML文档 中各个所述表文HTML元素的顺序, 遍历各个表文 HTML元素, 并基于位置信息生成各个当前遍历的 表文HTML元素对应的键值对; 基于 所述键值对确 定银行流水文档对应的流水记录信息, 在各个表 文HTML元素遍历完成时, 输出流水记录信息。 本 发明通过对文档的解析将银行流水信息转变为 结构化的流水数据, 确保了银行流水信息解析结 果的准确性、 有效性。 权利要求书3页 说明书13页 附图2页 CN 114912051 A 2022.08.16 CN 114912051 A 1.一种数据处 理方法, 其特 征在于, 所述数据处 理方法包括以下步骤: 将银行流水文档转换为HTML文档, 并在所述HTML文档的HTML元素中, 确定所述银行流 水文档中各个表头名称对应的表头 HTML元素以及各个表文 文本对应的表文HTML元 素; 基于所述表头HTML元素以及所述表文HTML元素, 确定各个所述表头名称和各个所述表 文文本在所述银 行流水文档中的位置信息; 基于所述HTML文档中各个所述表文HTML元素的顺序, 遍历各个所述表文HTML元素, 并 基于所述位置信息生成各个当前遍历的表文HTML元素对应的键值对, 其中, 所述键值对的 value数据为当前遍历的表文HTML元素对应的当前表文文本, 所述键值对的key数据为所述 当前表文 文本对应的表头名称; 基于所述键值对确定所述银行流水文档对应的流水记录信 息, 在各个所述表文HTML元 素遍历完成时, 输出 所述流水记录信息 。 2.如权利要求1所述的数据处理方法, 其特征在于, 所述基于所述HTML文档中各个所述 表文HTML元素的顺序, 遍历各个所述表文HTML元素, 并基于所述位置信息生成各个当前遍 历的表文HTML元 素对应的键值对的步骤 包括: 将当前遍历的表文HTML元素对应的表文文本作为待处理表文文本, 基于所述位置信 息, 获取所述待处理表文文本对应的表文 范围, 其中, 所述表文 范围为所述待处理表文文本 的横坐标范围, 所述位置信息包括各个所述表头名称对应的表头起始坐标、 表头像素宽度 以及各个所述表文 文本对应的表文起始坐标、 表文像素宽度; 基于所述位置信息以及第一预设范围系数, 获取各个所述表头名称对应的表头范围, 其中, 所述表头范围为各个所述表头名称对应的横坐标 范围; 基于所述表文范围对各个所述表头范围进行对比, 在各个所述表头范围中, 确定是否 存在覆盖所述表文范围的目标表头范围; 若存在, 则基于所述待处理表文文本以及所述目标表头范围对应的表头名称, 生成所 述键值对。 3.如权利要求2所述的数据处理方法, 其特征在于, 所述基于所述表文范围对各个所述 表头范围进行对比, 在各个所述表头范围中, 确定是否存在覆盖所述表文范围的目标表头 范围的步骤之后, 还 包括: 若不存在, 则更新所述表头范围的获取次数, 基于所述获取次数以及预设比例确定第 二预设范围系数; 将所述第二预设范围系数作为所述第 一预设范围系数, 并返回执行基于所述位置信 息 以及第一预设范围系数, 获取 各个所述表头名称对应的表头范围的步骤。 4.如权利要求2所述的数据处理方法, 其特征在于, 所述将当前遍历的表文HTML元素对 应的表文文本作为待处理表文文本, 基于所述位置信息, 获取所述待处理表文文本对应的 表文范围的步骤 包括: 基于所述表文HTML元素, 获取所述待处理表文文本对应的表文起始坐标以及表文像素 宽度; 基于所述所述表文起始坐标以及所述表文像素宽度, 确定所述表文范围。 5.如权利要求2所述的数据处理方法, 其特征在于, 所述基于所述位置信 息以及第 一预 设范围系数, 获取 各个所述表头名称对应的表头范围的步骤 包括:权 利 要 求 书 1/3 页 2 CN 114912051 A 2基于所述表头HTML元素, 获取各个所述表头名称对应的表头起始坐标以及表头像素宽 度; 基于所述表头起始坐标以及所述表头像素宽度, 确定各个所述表头名称对应的中心位 置信息; 基于所述中心位置信息以及所述第一预设范围系数, 确定所述表头范围。 6.如权利要求1所述的数据处理方法, 其特征在于, 所述基于所述键值对确定所述银行 流水文档对应的流水记录信息, 在各个所述表文HTML元素遍历完成时, 输出所述流水记录 信息的步骤 包括: 若所述键值对不为第一个生成的键值对, 则将所述键值对作为第一键值对, 将第一键 值对相邻的上一个键值对作为第二键值对, 并将所述第一键值对对应的第一表头名称与所 述第二键值对 对应的第二表头名称进行匹配; 若所述第 一表头名称对应的序号为1, 且所述第 一表头名称与所述第 二表头名称不同, 则新建第一流水记录并将所述第一键值对存入 所述第一流水记录, 基于所述第一流水记录 更新所述 流水记录信息, 或者; 若所述第一表头名称对应的序号不为1, 且所述第一表头名称与所述第二表头名称不 同, 则将所述第一键值对存入包含所述第二键值对的第二流水记录, 并基于所述第二流水 记录更新所述 流水记录信息, 或者; 若所述第一表头名称与所述第 二表头名称相同, 则基于所述第 一键值对对应的第 一表 文文本更新所述第二键值对对应的第二表文文本, 并基于更新后的第二表文文本更新所述 流水记录信息; 在各个所述表文HTML元 素遍历完成时, 输出 所述流水记录信息 。 7.如权利要求6所述的数据处理方法, 其特征在于, 所述若所述键值对不为第 一个生成 的键值对, 则将所述键值对作为第一键值对, 将第一键值对相邻的上一个键值对作为第二 键值对, 并将所述第一键值对对应的第一表头名称与所述第二键值对对应的第二表头名称 进行匹配的步骤之前, 还 包括: 若所述键值对为第 一个生成的键值对, 则新建第 一流水记录并将所述键值对存入所述 第一流水记录; 基于所述第一 流水记录更新所述 流水记录信息 。 8.如权利要求1至7任一项所述的数据处理方法, 其特征在于, 所述将银行流水文档转 换为HTML文档, 并在所述HTML文档的HTML元素中, 确定所述银行流水文档中各个表头名称 对应的表头 HTML元素以及各个表文 文本对应的表文HTML元 素的步骤 包括: 将所述银 行流水文档转换为HTML文档, 基于所述HTML文档获取 所述HTML元 素; 基于所述HTML元素以及各个预设银行的预设特征信息, 确定所述银行流水文档对应的 银行; 基于所述银 行对应的预设特 征信息, 确定所述表头 HTML元素以及所述表文HTML元 素。 9.一种数据处理设备, 其特征在于, 所述数据处理设备包括: 存储器、 处理器及存储在 所述存储器上并可在所述处理器上运行的数据处理程序, 所述数据处理程序被所述处理器 执行时实现如权利要求1至8任一项所述的数据处 理方法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述可读存储介质上存储有数据处理程权 利 要 求 书 2/3 页 3 CN 114912051 A 3

.PDF文档 专利 数据处理方法、设备及计算机可读存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据处理方法、设备及计算机可读存储介质 第 1 页 专利 数据处理方法、设备及计算机可读存储介质 第 2 页 专利 数据处理方法、设备及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:23:46上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。