说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111649901.X (22)申请日 2021.12.3 0 (71)申请人 北京百度网讯科技有限公司 地址 100085 北京市海淀区上地十街10号 百度大厦二层 (72)发明人 郜杰 赵国栋 王凡 何径舟  (74)专利代理 机构 北京清亦华知识产权代理事 务所(普通 合伙) 11201 代理人 杜月 (51)Int.Cl. G16B 25/10(2019.01) G16B 40/20(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 组学数据处理方法、 装置、 电子设备和存储 介质 (57)摘要 本公开提供了一种组学数据处理方法、 装 置、 电子设备和存储介质, 涉及人工智 能技术领 域, 具体为深度学习、 智能医疗技术领域。 具体实 现方案为: 获取组学数据, 所述组学数据中包括 多个基因; 确定多个所述基因之间的关联关系; 根据所述组学数据中的多个所述基因的表达量, 以及所述关联关系, 确定图数据; 基于所述图数 据, 确定所述组学数据的特征, 以根据所述组学 数据的特征执行所述组学数据的目标任务。 由 此, 能够获取精准的组学数据的低维表示, 进而 提高癌症分型的分类任务、 个体生存分析任务等 下游的目标任务的准确性。 权利要求书3页 说明书15页 附图4页 CN 114429786 A 2022.05.03 CN 114429786 A 1.一种组学 数据处理方法, 包括: 获取组学 数据, 所述组学 数据中包括多个 基因; 确定多个所述基因之间的关联关系; 根据所述组学 数据中的多个所述基因的表达量, 以及所述关联关系, 确定图数据; 基于所述图数据, 确定所述组学数据的特征, 以根据所述组学数据的特征执行所述组 学数据的目标任务。 2.根据权利要求1所述的方法, 其中, 所述图数据, 包括图中多个节点的属性及连接所 述节点的边; 所述根据所述组学数据中的多个所述基因的表达量, 以及所述关联关系, 确定 图数据, 包括: 根据所述组学数据中的多个所述基因的表达量, 确定所述图中对应基因的节点的属 性; 根据至少两个所述基因之间的所述关联关系, 确定所述图中连接对应节点的边。 3.根据权利要求1所述的方法, 其中, 所述确定多个所述基因之间的关联关系, 包括: 根据多个所述基因合成的蛋白质, 查询蛋白质相互作用PPI网络, 以得到至少两基因所 合成的蛋白质之间的相互作用关系; 根据所述至少两基因所合成的蛋白质之间的相互作用关系, 确定所述至少两基因 的所 述关联关系。 4.根据权利要求1所述的方法, 其中, 所述多个基因包括第一基因和第二基因; 所述确 定多个所述基因之间的关联关系, 包括: 统计N次比较中所述第 一基因的表达量与 所述第二基因的表达量的变化趋势相同的次 数; 在所述次数大于预设阈值的情况下, 确定所述第 一基因与所述第 二基因存在所述关联 关系, 其中, 所述预设阈值小于N。 5.根据权利要求1 ‑4任一项所述的方法, 其中, 所述基于所述图数据, 确定所述组学数 据的特征, 包括: 采用图神经网络模型对所述图数据进行编码, 以得到所述组学 数据的特 征。 6.一种用于组学 数据处理的模型训练方法, 包括: 获取训练组学数据, 所述训练组学数据中包括多个基因, 至少两个所述基因之间存在 关联关系; 确定所述多个 基因之间的关联关系; 根据所述训练组学数据中的多个所述基因的表达量, 以及所述关联关系, 确定训练图 数据; 采用至少两种数据增强策略对所述训练图数据进行调整, 以得到至少两种增强图数 据; 采用图神经网络模型对所述至少两种增强图数据进行编码, 以得到对应的特 征; 根据所述至少两种增强图数据的特征之间的差异, 调整所述神经网络模型的模型参 数, 以使所述差异最小化。 7.根据权利要求6所述的方法, 其中, 所述训练图数据, 包括训练图中多个节点的属性 及连接所述节点的边; 所述根据所述训练组学数据中的多个所述基因的表达量, 以及所述权 利 要 求 书 1/3 页 2 CN 114429786 A 2关联关系, 确定训练图数据, 包括: 根据所述训练组学数据中的多个所述基因的表达量, 确定所述训练图中对应基因 的节 点的属性; 根据至少两个所述基因之间的所述关联关系, 确定所述训练图中连接对应节点的边。 8.根据权利要求7所述的方法, 其中, 所述采用至少两种数据增强策略对所述训练图数 据进行调整, 以得到 至少两种增强图数据, 包括: 采用至少两种数据增强策略, 对所述训练图数据中的至少一个节点的所述表达量进行 掩码, 以得到 至少两种增强图数据。 9.根据权利要求7所述的方法, 其中, 所述采用至少两种数据增强策略对所述训练图数 据进行调整, 以得到 至少两种增强图数据, 包括: 采用至少两种数据增强策略, 对所述训练图数据中的至少一个节点的所述表达量添加 噪声, 以得到 至少两种增强图数据。 10.一种组学 数据处理装置, 包括: 第一获取模块, 用于获取组学 数据, 所述组学 数据中包括多个 基因; 第一确定模块, 用于确定多个所述基因之间的关联关系; 第二确定模块, 用于根据所述组学数据中的多个所述基因的表达量, 以及所述关联关 系, 确定图数据; 第三确定模块, 用于基于所述图数据, 确定所述组学数据的特征, 以根据 所述组学数据 的特征执行所述组学 数据的目标任务。 11.根据权利要求10所述的装置, 其中, 所述图数据, 包括图中多个节点的属性及连接 所述节点的边; 所述第二确定模块, 包括: 第一确定单元, 用于根据所述组学数据中的多个所述基因的表达量, 确定所述图中对 应基因的节点的属性; 第二确定单元, 用于根据至少两个所述基因之间的所述关联关系, 确定所述图中连接 对应节点的边。 12.根据权利要求10所述的装置, 其中, 所述第一确定模块, 包括: 查询单元, 用于根据多个所述基因合成的蛋白质, 查询蛋白质相互作用PPI网络, 以得 到至少两基因所合成的蛋白质之间的相互作用关系; 第三确定单元, 用于根据所述至少两基因所合成的蛋白质之间的相互作用关系, 确定 所述至少两基因的所述关联关系。 13.根据权利要求10所述的装置, 其中, 所述多个基因包括第一基因和第二基因; 所述 第一确定模块, 包括: 统计单元, 用于统计N次比较中所述第一基因的表达量与所述第二基因的表达量的变 化趋势相同的次数; 第四确定单元, 用于在所述次数大于预设阈值的情况下, 确定所述第一基因与所述第 二基因存在所述关联关系, 其中, 所述预设阈值小于N。 14.根据权利要求10 ‑13任一项所述的装置, 其中, 所述第三确定模块, 包括: 编码单元, 用于采用图神经网络模型对所述图数据进行编码, 以得到所述组学数据的 特征。权 利 要 求 书 2/3 页 3 CN 114429786 A 3

.PDF文档 专利 组学数据处理方法、装置、电子设备和存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 组学数据处理方法、装置、电子设备和存储介质 第 1 页 专利 组学数据处理方法、装置、电子设备和存储介质 第 2 页 专利 组学数据处理方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:56:48上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。