说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211336908.0 (22)申请日 2022.10.28 (71)申请人 天津大学四川创新研究院 地址 610000 四川省成 都市天府新经济产 业园B6号楼13层 (72)发明人 李国良 张也 陈建邦 刘原驰  陆嘉华 唐善雯 梁晨景 章璐  李美伊 杨诗宇  (74)专利代理 机构 成都金英专利代理事务所 (普通合伙) 51218 专利代理师 郭肖凌 (51)Int.Cl. G16B 30/20(2019.01) G16B 40/30(2019.01) G16B 20/20(2019.01)G06K 19/07(2006.01) G06K 9/62(2022.01) G06F 17/16(2006.01) (54)发明名称 基于序列特征矩阵的主从协同二代从头组 装方法及系统 (57)摘要 本发明公开了基于序列特征矩阵的主从协 同二代从头组装 方法及系统, 该方法包括如下步 骤: S1: 对测序文件进行基因解析获取自定义编 号和碱基序列; S2: 通过软磁盘阵列RAID实现碱 基序列数据的管理; S3: 计算每条测序序列rea ds 的前后特征矩阵, 并生成ID 对接表; S4: 采用多机 并行的方式进行组装任务; S5: 回帖补洞后输出 二代测序数据的组装结果。 本发 明大幅提高了基 因组装分析的生物信息学分析流程的速度, 有助 于生信分析人员以更快的速度、 更短的时间获得 准确的分析 结果。 权利要求书2页 说明书7页 附图2页 CN 115547415 A 2022.12.30 CN 115547415 A 1.基于序列特 征矩阵的主从协同二代从头组装方法, 其特 征在于, 包括如下步骤: S1: 对测序文件进行基因解析获取自定义编号和碱基序列; S2: 通过软磁盘阵列RAID实现碱基序列数据的管理; S3: 计算每条测序 序列reads的前后特 征矩阵, 并生成ID对接表; S4: 采用多机并行的方式进行组装 任务; S5: 回帖补洞后输出二代测序数据的组装结果。 2.如权利要求1所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在于, 所述测序文件包括fastq文件, 首先需要将fastq文件进行基因解析, 获取自定义编号和碱 基序列。 3.如权利要求1所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在于, 步骤S2具体为: 边缘端主机将碱基序列数据调入虚拟内存中, 并向从机发出特征矩阵计算 任务。 4.如权利要求1所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在于, 步骤S3包括如下子步骤: S31: 对每一条测序序列reads分别生成前后两个一维数值特征矩阵, 以此来描述一条 测序序列reads的特 征值; S32: 得到所有测序序列reads相应的特征矩阵后, 采用DNN、 压缩感知或数值快排方法 生成ID对接表。 5.如权利要求4所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在于, 所述数值快排方法为: 先将前后特征矩阵根据数值进 行快排, 根据设定的误差阈值, 搜索前 特征矩阵满足该要求的后特征矩阵, 或者根据后特征矩阵搜索满足要求的前特征矩阵, 并 根据匹配的前后特 征矩阵的编号, 生成ID对接表。 6.如权利要求1所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在于, 步骤S4包括如下子步骤: S41: 初步组装, 采用高度异步的方式组装小型重 叠群small contig和SNP信息表; S42: 图论组装, 构建德布莱茵图组装重 叠群contig和SNP信息表。 7. 如权利要求6所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在 于, 步骤S41具体为: 在得到ID对接表后, 采用高度 异步方式提交组装的计算任务, 组装小 型 重叠群small  contig和SNP信息表, 边缘端主机接收数据, 并且向各服务器从机分发任务, 各服务器从机分别认领当前ID对接表中的匹配 计算任务, 并向边 缘端主机返回组装结果。 8. 如权利要求6所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在 于, 步骤S42具体为: 边缘端主机根据得到的重叠关系构建德布莱茵图, 并将总图拆分为包 含信息的各个子图, 将子图分发给各个服务器从机, 服务器从机根据子图深度寻路, 并且读 取边缘端主机中存储的上一步组装的小型重叠群 small contig结果, 将其组装为更长片段 的重叠群contig和SNP信息表, 运 算完成后将组装结果回传到边 缘端主机中进行整合。 9.如权利要求1所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在于, 步骤S5具体为: 按照是否超过二代 最长测序长度将图论得到的组装 结果分为长 短序列两个 文件, 先将长序列之间逐一进行滑动匹配, 寻找长片段之间的重叠关系进而组装为更长的 片段, 再将剩 下的短序列视为操作序列, 逐一和长序列进行匹配, 找到短序列的锚定位置,权 利 要 求 书 1/2 页 2 CN 115547415 A 2得到最后的组装结果。 10.基于序列特征矩阵的主从协同二代从头组装系统, 用以实现权利要求1~9任意一项 所述的基于序列特征矩阵的主从协同二代从头组装方法, 其特征在于, 包括基因解析模块、 管理模块、 计算模块、 多机组装模块和输出模块, 其中, 所述基因解析模块用以对测序文件 进行基因解析获取自定义编号和碱基序列; 所述管理模块通过软磁盘阵列RA ID实现碱基序 列数据的管理; 所述计算模块用以计算每条测序序列reads的前后特征矩阵, 并生 成ID对接 表; 所述多机组装模块采用多机并行 的方式进行组装任务; 所述输出模块用以回帖补洞后 输出二代测序数据的组装结果。权 利 要 求 书 2/2 页 3 CN 115547415 A 3

.PDF文档 专利 基于序列特征矩阵的主从协同二代从头组装方法及系统

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于序列特征矩阵的主从协同二代从头组装方法及系统 第 1 页 专利 基于序列特征矩阵的主从协同二代从头组装方法及系统 第 2 页 专利 基于序列特征矩阵的主从协同二代从头组装方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 05:47:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。