说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211073019.X (22)申请日 2022.09.02 (71)申请人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 方钰 翟鹏珺 陈欣如  (74)专利代理 机构 上海科律专利代理事务所 (特殊普通 合伙) 31290 专利代理师 叶凤 (51)Int.Cl. G06F 16/2455(2019.01) G06F 16/25(2019.01) (54)发明名称 一种面向时空大数据流处理引擎的动态资 源调度方法 (57)摘要 一种面向时空大数据流处理引擎的动态资 源调度方法在本发明中被提出。 当前的流处理引 擎通常借助集群或高性能的硬件来提升处理数 据的效率, 仅仅支持处理实时的流数据, 不能同 时处理无界的实时数据和有界的存储 数据, 且随 机分配处理任务的方式不能依据上层需求针对 性的提升数据处理速率。 本发明面向时空大数 据, 改进了数据划分算法, 将流数据划分为有界 和无界两种数据类型, 并分别从全局和局部资源 范围对数据处理任务设计了动态资源调度策略, 使得算法在保证无界任务处理实时性的同时, 扩 大了处理有界任务的总量, 由此使得流处理引擎 具备同时处理无界、 有界数据的能力, 且在集群 环境下实现资源高效分配, 以提高流处理引擎的 吞吐量, 并降低处 理时延。 权利要求书4页 说明书6页 附图3页 CN 115510100 A 2022.12.23 CN 115510100 A 1.一种面向时空大 数据流处 理引擎的动态资源调度方法, 其特 征在于: 步骤1、 数据采集系统获取 数据; 同时, 改进水位 算法; 步骤2、 流处 理引擎接入数据, 利用步骤1得到的新水位 算法对接入数据进行划分; 步骤3、 针对步骤2划分的数据类型, 构建相应的处理任务, 得到有界和无界任务处理总 量; 步骤4、 结合步骤3得到的有界和无界任务处理总量, 分别从全局和局部资源范围进行 资源动态调度。 2.如权利要求1所述的方法, 其特 征在于: 所述步骤1具体为: 1.1设置窗口机制 定义事件发生 时间为该条数据实际发生的时间, 即由事件所在的数据采集系统记录下 来的时间; 事 件处理时间为在实际流处 理引擎中处 理或计算该 条数据的时间; 假设每个窗口均有开始时间startTime与结束时间endTime, 同时某一条到达数据的事 件发生时间是eventTime, 此时数据采集系统会校验eventTime并找到对应的窗口 (startTime<eventTime<endTime), 并从该窗口所有的已到 达数据中找到maxEventTime; 1.2引入水位线延时阈值对水位 算法进行改进 设置水位延时T, 和水位延时阈值T ′两个参数, 并基于步骤1.1的窗口机制 设置水位算 法, 水位算法的判别准则如下 所示: 3.如权利要求1所述的方法, 其特 征在于: 所述步骤2具体为: 结合步骤1.2得到的改进水位算法, 对流处理引擎接入的数据进行有界和无界两种数 据类型的划分, 即当事件时间小于最大事件时间与水位延时的差, 且水位延时低于水位延 时阈值时, 将这个窗口内该事件时间对应的数据划分为无界数据; 当事件时间小于最大事 件时间与水位延时的差, 且水位延时不低于水位延时阈值时, 将这个窗口内该事件时间对 应的数据划分为有界数据; 反之, 事件时间不小于最大事件时间与水位延时的差, 且水位延 时低于水位延时阈值时, 将这个窗口内该事件时间对应的数据划分为无界数据; 事件时间 不小于最大事件时间与水位延时的差, 且水位延时不低于水位延时阈值时, 将这个窗口内 该事件时间对应的数据划分为有界数据; 将数据划分结果输入给步骤3.2和3.3; 水位延时T1对应的数据为有界数据, 而水位延时T2对应的数据为无界数据。 4.如权利要求1所述的方法, 其特 征在于: 所述步骤3具体为: 3.1对有界和无界两种数据设计相应的ETL任务构建策略 数据抽取、 转换、 装载, 是对流数据进行提取、 转换、 清洗和 加载的过程; 3.2实现无界数据ETL的构建权 利 要 求 书 1/4 页 2 CN 115510100 A 2对步骤2得到的无界数据, 结合 步骤3.1的构建策略, 构建无界数据处 理任务: 3.3实现有界数据ETL的构建 对步骤2得到的有界数据, 结合 步骤3.1的构建策略, 构建有界数据处 理任务。 5.如权利要求 4所述的方法, 其特 征在于: 3.1对有界和无界两种数据设计相应的ETL任务构建策略 数据抽取、 转换、 装载, 是对流数据进行提取、 转换、 清洗和 加载的过程; 针对无界数据的处 理任务, 设计如下的ETL任务构建策略, 包括: (1)依据窗口与水位线的任务触发方式; (2)全量抽取的数据抽取 方式; (3)根据需求条件 对筛选后数据进行转换的数据转换 方式; (4)水平划分的任务划分方式; 针对有界数据的处 理任务设计如下的ETL任务构建策略, 包括: (1)根据事 件驱动的任务触发方式; (2)增量抽取的数据抽取 方式; (3)对所有 有界数据完整转换的数据转换 方式; (4)垂直划分的划分方式。 6.如权利要求 4所述的方法, 其特 征在于: 3.2实现无界数据ETL的构建 对步骤2得到的无界数据, 结合 步骤3.1的构建策略, 构建无界数据处 理任务: 3.2.1通过固定 长度窗口对数据进行 水平分片, 窗口长度为5; 3.2.2在被分片的单个窗口内, 对数据进行全量抽取, 并按上层需求对数据进行条件筛 选后转换, 之后聚合计算窗口内数据并将其装载至数据仓库; 3.2.3不同的单个计算窗口内的运行结果间相互独立, 存在延时数据的窗口计算也不 会影响正常窗口的计算, 所以利用多个算子(task  slot)并行的计算多个窗口, 以提升无界 数据任务处 理的效率和实时性。 7.如权利要求 4所述的方法, 其特 征在于: 3.3实现有界数据ETL的构建 对步骤2得到的有界数据, 结合 步骤3.1的构建策略, 构建有界数据处 理任务: 3.3.1有界数据的处理任务是对全量的有界数据进行处理, 所以先按照 固定长度的数 据项, 将数据流垂 直划分为不等长度的分片, 这里之所以是不等长度的分片, 是 因为数据流 中包含的数据项是随机的, 有的片区会分的多一些, 有的片区会分的少一些; 设置数据项长 度为30, 则该有界数据的数据流被分3片, 分别包 含了8个、 5个、 2个数据项; 3.3.2利用不同的算子, 同时对步骤3.3.1得到的所有分片完成数据增量抽取任务, 即 在已抽取的数据基础上抽取新增的数据; 3.3.3对步骤3.3.2抽取到的数据, 利用不同的算子 完成数据转换任务; 3.3.4对步骤3.3.3完成数据转换的数据, 分别分割计算后进行聚合计算, 之后将聚合 的数据装载至数据仓库中; 这种垂直划分的方式, 可以将数据抽取、 数据转换、 数据装载等 任务分割开, 由此减少子任务之间的阻塞, 扩大有界数据处 理任务的数据处 理总量。 8.如权利要求1所述的方法, 其特 征在于:权 利 要 求 书 2/4 页 3 CN 115510100 A 3

.PDF文档 专利 一种面向时空大数据流处理引擎的动态资源调度方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向时空大数据流处理引擎的动态资源调度方法 第 1 页 专利 一种面向时空大数据流处理引擎的动态资源调度方法 第 2 页 专利 一种面向时空大数据流处理引擎的动态资源调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 17:01:35上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。