(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211012966.8
(22)申请日 2022.08.23
(65)同一申请的已公布的文献号
申请公布号 CN 115080156 A
(43)申请公布日 2022.09.20
(73)专利权人 卓望数码技 术 (深圳) 有限公司
地址 518000 广东省深圳市南 山区粤海街
道高新区社区高新南七道015号深港
产学研基地W601
(72)发明人 李雪峰 杨敏 孙开翠 刘广东
(74)专利代理 机构 深圳市恒和大知识产权代理
有限公司 4 4479
专利代理师 林大超
(51)Int.Cl.
G06F 9/448(2018.01)G06F 9/50(2006.01)
(56)对比文件
CN 111367951 A,2020.07.0 3
CN 113742004 A,2021.12.0 3
CN 114860846 A,202 2.08.05
CN 113609201 A,2021.1 1.05
CN 112000636 A,2020.1 1.27
Resemble_.Fl ink Proces sFunction
onTimer 延迟处 理数据. 《ht tps://
blog.csdn.net/q q_27657429/article/
details/105350909》 .2020,第1- 5页.
审查员 伍小辉
(54)发明名称
基于流批一体的大数据批量计算的优化计
算方法及装置
(57)摘要
本发明公开了一种基于流批一体的大数据
批量计算的优化计算方法、 装置、 计算机设备及
存储介质, 其方法实现包括: 根据业务诉求确定
字段组合; 将数据流按照所述字段组合进行分
组, 以形成多组不同的数据流; 将所述多组不同
的数据流分别KeyedProcessFunction中按照呈
阶梯递减的时间窗口进行计算, 以处理数据逻
辑; 当计算完成时, 输出符合所述业务诉求的数
据子集。 本申请实施例中, 通过时间阶梯缩减和
多次数据变化试探的方式优化批量计算的集群
资源和计算时间, 可 以一次性完成数据的计算,
并输出符合业务诉求的数据子集, 无需进行多次
迭代计算, 可 以有效节省大量的计算资源, 并使
得计算时间呈阶梯式递减, 有效减少了计算时
间。
权利要求书3页 说明书11页 附图3页
CN 115080156 B
2022.11.11
CN 115080156 B
1.一种基于流批一体的大数据批量计算的优化计算方法, 其特征在于, 所述方法, 包
括:
根据业务诉求确定 字段组合;
将数据流按照所述字段组合进行分组, 以形成多组不同的数据流;
将所述多组不同的数据流分别在KeyedProcessFunction中按照呈阶梯递减的时间窗
口进行计算, 以处 理数据逻辑;
当计算完成时, 输出符合所述 业务诉求的数据子集;
其中, 所述按照呈阶梯递减的时间窗口进行计算, 包括:
在open函数中使用多个fl ink的state类型的变量, 分别记录不同的计算状态;
通过processElement函数对相同字段组合 的数据流进行处理, 并登记触发onTimer函
数的第一触发时间, 以在到 达所述第一触发时间时, 触发所述 onTimer函数;
在所述第一触发时间内, 当所述计算状态符合第一预设触发条件时, 登记重新触发所
述onTimer函数的第二触发时间, 以在到达所述第二触发时间时, 重新触发所述onTimer函
数;
在所述第二触发时间内, 当所述计算状态符合第二预设触发条件时, 登记重新触发所
述onTimer函数的第三触发时间, 以在到达所述第三触发时间时, 重新触发所述onTimer函
数;
其中, 所述第一触发时间大于所述第二触发时间, 所述第二触发时间大于所述第三触
发时间。
2.如权利要求1所述的基于流批一体的大数据批量计算的优化计算方法, 其特征在于,
所述计算状态包括dateState、 c hangeFlag、 idl;
所述dateState用于表示需要向下游吐出的符合所述 业务诉求的业 务数据;
所述changeFlag用于标识相同字段组合的数据流, 是否接收到了新的数据引起了所述
dateState发生变化;
所述idl用于标识相同字段组合的数据 流中, 所述dateState已经累计多少次没有发生
变化。
3.如权利要求2所述的基于流批一体的大数据批量计算的优化计算方法, 其特征在于,
所述登记触发所述 onTimer函数的第一触发时间, 包括:
当所述dateState为空值时, 计算并更新所述dateState, 将所述changeFlag更新为
false, 所述 idl更新为0, 并登记触发所述 onTimer函数的第一触发时间;
其中, 所述false用于表示所述dateState的数据没有变化。
4.如权利要求2所述的基于流批一体的大数据批量计算的优化计算方法, 其特征在于,
所述通过processElement函数对所述相同字段组合的数据流中的数据进行处理之后, 包
括:
当所述dateState不为空值时, 计算并更新所述dateState, 并将所述changeFlag更新
为true;
其中, 所述t rue用于表示所述dateState的数据存在变化。
5.如权利要求4所述的基于流批一体的大数据批量计算的优化计算方法, 其特征在于,
所述当所述计算状态符合第一预设触发条件时, 登记重新触发所述onTimer函数的第二触权 利 要 求 书 1/3 页
2
CN 115080156 B
2发时间, 包括:
当所述changeFlag为true时, 将所述changeFlag重置为false, 所述idl重置为0, 同时
记录重新触发所述 onTimer函数的第一个第二触发时间;
在所述第一个第二触发时间内, 所述changeFlag为true时, 将所述changeFlag重置为
false, 所述idl重置为0, 同时记录重新触发所述onTimer 函数的第二个第二触发时间, 重复
上述步骤, 直到第N个第二触发时间内, 所述c hangeFlag为false。
6.如权利要求5所述的基于流批一体的大数据批量计算的优化计算方法, 其特征在于,
所述当符合第二预设触发条件时, 登记重新触发所述 onTimer函数的第三触发时间, 包括:
当所述changeFlag为false, 则确定所述 idl是否小于第一预设阈值;
当结果为是, 则将所述changeFlag更新为false, 将所述idl增加一次, 同时记录重新触
发所述onTimer函数的第三触发时间。
7.如权利要求6所述的基于流批一体的大数据批量计算的优化计算方法, 其特征在于,
所述同时记录 重新触发所述 onTimer函数的第三触发时间之后, 包括:
当在所述第三触发时间内, 所述dateState发生变化时, 则将所述changeFlag重置为
false, 所述 idl重置为0, 同时记录 重新触发所述 onTimer函数的第三个第二触发时间; 或者
当在预设个第三触发时间内, 所述dateState均未发生变化时, 确定所述idl是否大于
第二预设阈值;
当结果为是, 则输出所述业务数据, 然后将所述dateState、 changeFlag以及idl进行清
除处理。
8.一种基于流批一体的大数据批量计算的优化计算装置, 其特征在于, 所述装置, 包
括:
字段组合确定单 元, 用于根据业 务诉求确定 字段组合;
分组单元, 用于将数据流按照所述字段组合进行分组, 以形成多组不同的数据流;
计算单元, 用于将所述多组不同的数据流分别在KeyedProcessFunction中按照呈阶梯
递减的时间窗口进行计算, 以处 理数据逻辑;
数据子集输出 单元, 用于当计算完成时, 输出符合所述 业务诉求的数据子集;
其中, 所述计算单 元, 还用于:
在open函数中使用多个fl ink的state类型的变量, 分别记录不同的计算状态;
通过processElement函数对相同字段组合 的数据流进行处理, 并登记触发onTimer函
数的第一触发时间, 以在到 达所述第一触发时间时, 触发所述 onTimer函数;
在所述第一触发时间内, 当所述计算状态符合第一预设触发条件时, 登记重新触发所
述onTimer函数的第二触发时间, 以在到达所述第二触发时间时, 重新触发所述onTimer函
数;
在所述第二触发时间内, 当所述计算状态符合第二预设触发条件时, 登记重新触发所
述onTimer函数的第三触发时间, 以在到达所述第三触发时间时, 重新触发所述onTimer函
数;
其中, 所述第一触发时间大于所述第二触发时间, 所述第二触发时间大于所述第三触
发时间。
9.一种计算机设备, 包括存储器、 处理器以及存储在所述存储器中并可在所述处理器权 利 要 求 书 2/3 页
3
CN 115080156 B
3
专利 基于流批一体的大数据批量计算的优化计算方法及装置
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:13:07上传分享