说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210819417.5 (22)申请日 2022.07.13 (66)本国优先权数据 202110796858.3 2021.07.14 CN (71)申请人 高静 地址 010018 内蒙古自治区呼和浩特市赛 罕区鄂尔多斯东街内蒙古农业大学新 校区计算机与信息 工程学院 申请人 刘振羽 郭建男 (72)发明人 高静 刘振羽 郭建男  (74)专利代理 机构 北京汇智英财专利代理有限 公司 11301 专利代理师 吴怀权 (51)Int.Cl. G16B 25/10(2019.01)G06F 9/451(2018.01) (54)发明名称 一种基因差异表达工作流并行化方法和系 统 (57)摘要 本申请公开了一种基因差异表达工作流并 行化方法和系统, 主要分为六个模块, 包括资源 配置模块、 索引建立模块、 数据预处理模块、 比对 并行化模块、 差异表达模块和可视化模块, 通过 大数据技术Spark实现了对TopHat2比对过程的 并行化处理, 提高对比速度。 通过差异表达模块 自动对对比结果进行分析, 实现差异表达工作流 自动化, 最后在可视化模块中展示, 集成多个分 析软件, 实现了差异表达分析的自动化工作流, 科研人员不需要掌握繁多的工具进行处理, 简化 科研人员的操作流 程。 权利要求书2页 说明书7页 附图4页 CN 115331734 A 2022.11.11 CN 115331734 A 1.一种基因差异 表达工作流并行化系统, 其特 征在于, 包括: 资源配置模块, 用于配置用户的需求信息和输入文件, 所述输入文件包括测序基因的 基因序列; 索引建立模块, 用于构建参 考基因组序列索引, 为比对提供索引数据库; 数据预处理模块, 用于将所述资源配置模块中的所述输入文件提交到集群中, 并审核 所述输入文件是否符合要求; 比对并行化模块, 用于通过Spark技术将所述输入文件划分数据集并下发到集群各计 算节点并行运 算, 并输出对比结果; 差异表达模块, 用于对所述比对结果进行差异 表达分析, 并输出差异 表达结果; 可视化模块, 用于对所述差异 表达结果进行 可视化展示。 2.根据权利要求1所述的一种基因差异表达工作流并行化系统, 其特征在于, 所述比对 并行化模块包括: 分区子模块, 用于将所述输入文件划分为至少两个分区; YARN资源管理器, 用于将所述分区平均分发给不同的计算节点并分配 计算资源; 计算节点, 搭载有Spark计算引擎, 用于通过map任务将每个分区中的数据抽取为若干 最小的独立计算任务并使用TopHat 2进行并行计算; 合并输出子模块, 用于将并行计算结果进行合并输出。 3.根据权利要求1所述的一种基因差异表达工作流并行化系统, 其特征在于, 所述数据 预处理模块包括格式转换子模块, 所述格式转换子模块, 用于当审核输入文件不符合格式 要求时, 对文件进行转换或提 示选择其 他输入文件。 4.一种基因差异 表达工作流并行化方法, 其特 征在于, 包括以下步骤: 构建参考基因组序列索引, 为比对提供索引数据库; 读取用户配置的需求信息和输入文件, 所述输入文件 包括测序基因的基因序列; 将所述资源配置模块中的所述输入文件提交到集群中, 并对所述输入文件进行审核; 通过Spark技术将所述输入文件划分数据集并下发到集群各计算节点并行运算, 获取 对比结果; 对所述比对结果进行差异 表达分析, 获取差异 表达结果; 对所述差异 表达结果进行 可视化展示。 5.根据权利要求4所述的一种基因差异表达工作流并行化方法, 其特征在于, 所述对所 述输入文件进行审核的步骤 包括 判断所述输入文件的文件格式是否符合要求, 若所述输入文件的文件格式不符合要 求, 则将所述输入文件的格式进行转换或提示选择其他输入文件; 若格式符合要求则进入 下一步骤。 6.根据权利要求4所述的一种基因差异表达工作流并行化方法, 其特征在于, 所述通过 Spark技术将所述输入文件划分数据集并下发到集群各计算节点并行运算, 获取对比结果 包括: 将所述输入文件划分为至少两个分区; 将分区平均分发给不同的计算节点并分配 计算资源; 在计算节点上搭载Spark计算引擎, 利用  map任务将每个分区中的数据抽取为若干最权 利 要 求 书 1/2 页 2 CN 115331734 A 2小的独立计算任务并使用TopHat 2进行并行计算; 把全部并行计算结果进行合并后输出。 7.根据权利要求6所述的一种基因差异表达工作流并行化方法, 其特征在于, 所述分区 数量为所述计算节点数量的整数倍。 8.根据权利要求4所述的一种基因差异表达工作流并行化方法, 其特征在于, 所述需求 信息包括需要使用的集群资源大小、 后续比对和差异表达中需要 涉及到的参数值和输出文 件输出路径。权 利 要 求 书 2/2 页 3 CN 115331734 A 3

.PDF文档 专利 一种基因差异表达工作流并行化方法和系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基因差异表达工作流并行化方法和系统 第 1 页 专利 一种基因差异表达工作流并行化方法和系统 第 2 页 专利 一种基因差异表达工作流并行化方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 07:45:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。