说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221095162 2.7 (22)申请日 2022.08.09 (71)申请人 杭州玳数 科技有限公司 地址 310000 浙江省杭州市余杭区仓前街 道余杭塘路2301号海智中心8幢102 室-5 (72)发明人 李志强 陈吉平  (74)专利代理 机构 杭州裕阳联合专利代理有限 公司 33289 专利代理师 杨琪宇 (51)Int.Cl. G06F 8/61(2018.01) G06F 8/71(2018.01) G06F 9/50(2006.01) (54)发明名称 一种将PyFl ink任务部署到yarn 集群的方法 (57)摘要 本申请公开了一种将PyFlink任务部署到 yarn集群的方法, 涉及大数据计算技术领域, 包 括以下步骤: 将前端上传的PyFlink任务的资源 文件全部下载到后端, 并获取Python相 关信息; 根据资源文件和Pyt hon相关信息构建PyFlink任 务的 Pa c ka g ed P r og ra m 参 数 , 并 调 用 YarnClusterDescriptor的deploy JobCluster方 法将PyFlink任务的所有相关文件上传至HDFS 中; 启动Pyt hon进程, 并根据 PyFlink任 务的逻辑 生成JobGr aph, 通过YarnClusterDescriptor将 JobGraph提交到yarn集群。 本方法在提交 PyFlink任务时直接复用已经上传好的资源和依 赖, 而无需提前在客户端安装Python环境和 PyFlink任务的相关依赖, 使得不 同的Python环 境都可以运行PyFl ink任务。 权利要求书2页 说明书5页 附图2页 CN 115237435 A 2022.10.25 CN 115237435 A 1.一种将PyFl ink任务部署到yarn 集群的方法, 其特 征在于, 包括以下步骤: 将前端上传的PyFl ink任务的资源文件 全部下载到后端, 并获取Pytho n相关信息; 根据所述资源文件和Python相关信息构建PyFlink任务的PackagedProgram参数, 并调 用YarnClusterDescriptor的deployJobCluster方法将PyFlink任务的所有相关文件上传 至HDFS中; 启动Python进程, 并根据PyFlink任务的逻辑生成JobGraph, 通过所述 YarnClusterDescriptor将所述JobGraph提交到yarn 集群。 2.根据权利要求1所述的一种将PyFlink任务部署到yarn集群的方法, 其特征在于, 所 述将前端上传的PyFl ink任务的资源文件 全部下载到后端, 包括: 接收前端上传的PyFlink任务 的资源文件, 所述资源文件包含Python文件、 PyFlink环 境压缩包和第三方依赖jar包; 根据资源类型将所述资源文件存储到不同的存储介质中, 所述存储介质包含HDFS和 SFTP, 并将所述资源文件 全部下载到后端。 3.根据权利要求1所述的一种将PyFlink任务部署到yarn集群的方法, 其特征在于, 在 将前端上传的PyFl ink任务的资源文件 全部下载到后端之后, 还 包括: 对所述资源文件中的PyFlink环境压缩包进行解压, 并将解压后的目录路径封装到 PyFlinkInfo中。 4.根据权利要求2所述的一种将PyFlink任务部署到yarn集群的方法, 其特征在于, 所 述获取Pytho n相关信息, 包括: 查找后端Flink  Lib目录下的Flink ‑Python.jar包, 将所述jar包路径设置到 PyFlinkInfo中, 并获取下载到后端的PyFlink环境的路径信息和运行在yarn集群上的 PyFlink环境的路径信息以及HDFS和SFTP中存 储的资源文件的路径信息 。 5.根据权利要求1所述的一种将PyFlink任务部署到yarn集群的方法, 其特征在于, 所 述PackagedProgram参数包含Python文件、 Python入参、 后端PyFlink环境的路径和yarm集 群的PyFl ink环境路径, 所述Pytho n入参归属于所述资源文件。 6.根据权利要求1所述的一种将PyFlink任务部署到yarn集群的方法, 其特征在于, 所 述相关文件包含flinklib里面所有的包、 PyFlink任务依赖的jar包、 日志 配置文件、 hdfs配 置文件和yarn配置文件。 7.根据权利要求1所述的一种将PyFlink任务部署到yarn集群的方法, 其特征在于, 所 述启动Python进程 , 并根据PyFlink任务的逻辑生成JobGraph , 通过所述 YarnClusterDescriptor将所述JobGraph提交到yarn 集群, 包括: 调用Flink  PythonDriver以启动Python进程, 所述Python进程用于与Java  JVM进程进 行通信; 根据所述PyFlink任务的逻辑和所述Java  JVM进程生成JobGraph, 通过所述 YarnClusterDescriptor将所述JobGraph提交到yarn 集群。 8.根据权利要求1所述的一种将PyFlink任务部署到yarn集群的方法, 其特征在于, 所 述启动Pytho n进程, 所述方法还 包括: 提交完所述PyFl ink任务后, 递归删除任务 提交过程中下 载的所有 文件。 9.一种电子设备, 其特征在于, 包括存储器和处理器, 所述存储器用于存储一条或多条权 利 要 求 书 1/2 页 2 CN 115237435 A 2计算机指令, 其中, 所述一条或多条计算机指令被所述处理器执行以实现如权利要求1~8 中任一项所述的一种将PyFl ink任务部署到yarn 集群的方法。 10.一种存储有计算机程序的计算机可读存储介质, 其特征在于, 所述计算机程序使计 算机执行时实现如权利要求 1~8中任一项所述的一种将PyFlink任务部署 到yarn集群的方 法。权 利 要 求 书 2/2 页 3 CN 115237435 A 3

.PDF文档 专利 一种将PyFlink任务部署到yarn集群的方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种将PyFlink任务部署到yarn集群的方法 第 1 页 专利 一种将PyFlink任务部署到yarn集群的方法 第 2 页 专利 一种将PyFlink任务部署到yarn集群的方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:09:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。