说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211052931.7 (22)申请日 2022.08.31 (71)申请人 广西爱生 生命科技有限公司 地址 中国 (广西) 自由贸易试验区南宁片区 盘歌路4号碧园大厦2单 元2层 (72)发明人 叶朋朋 陈晓春  (74)专利代理 机构 北京高沃 律师事务所 1 1569 专利代理师 万慧华 (51)Int.Cl. G16B 40/00(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 基于多维肠道菌群特征的标记方法及其应 用 (57)摘要 本发明涉及一种基于多维肠道菌群特征的 标记方法及其应用, 属于微生物组学和人工智能 的交叉技术领域。 先计算第一菌属的第一出现频 率和相对丰度之和, 对所有第一菌属进行筛选, 得到第二菌属。 再计算第二菌属的平均相对丰 度, 对所有第二菌属进行筛选, 得到第三菌属。 然 后计算第三菌属的平均相对丰度差异系数, 对所 有第三菌属进行筛选, 得到第四菌属。 最后计算 第四菌属的第二出现频率和第三出现频率, 对所 有第四菌属进行筛选, 得到差异菌属, 完成肠道 菌群特征的标记, 从而通过逐步筛选能够准确确 定差异菌属, 从而提高预测效率。 此外, 通过选取 的差异菌属构建样本集, 能够快速建立分类器模 型, 对分类器模型进行评价, 可 以大大提高预测 的准确度。 权利要求书3页 说明书15页 附图4页 CN 115472227 A 2022.12.13 CN 115472227 A 1.一种基于多维肠道菌群特 征的标记方法, 其特 征在于, 所述标记方法包括: 获取多个样本 中每一所述样本的肠道菌群中的每一第 一菌属的绝对丰度; 所述样本包 括健康样本和疾病样本; 对于每一所述第一菌属, 将所述第一菌属的绝对丰度转换为相对丰度, 根据所述相对 丰度计算所述第一菌属在所有所述样本中的第一出现频率以及所述第一菌属在所有所述 样本中的相对丰度之和; 根据所述第一出现频率和所述相对丰度之和对所有 所述第一菌属 进行筛选, 得到第二菌属; 对于每一所述第二菌属, 根据 所述第二菌属的相对丰度计算所述第 二菌属在所有所述 疾病样本中的平均相对丰度; 根据所述平均相对丰度对所有所述第二菌属进行筛选, 得到 第三菌属; 对于每一所述第三菌属, 根据 所述第三菌属的平均相对丰度计算所述第 三菌属的平均 相对丰度差异系数; 根据所述平均相对丰度差异系 数对所有所述第三菌属进行筛选, 得到 第四菌属; 对于每一所述第四菌属, 根据 所述第四菌属的相对丰度计算所述第四菌属在所有所述 疾病样本中的第二出现频率以及所述第四菌属在所有 所述健康样本中的第三出现频率; 根 据所述平均相对丰度差异系数、 所述第二出现频率和所述第三出现频率对 所有所述第四菌 属进行筛 选, 得到差异菌属; 所述差异菌属即为肠道菌群特 征的标记结果。 2.根据权利要求1所述的标记方法, 其特征在于, 所述将所述第 一菌属的绝对丰度转换 为相对丰度具体包括: 对于每一所述样本, 计算所述第 一菌属的绝对丰度与 所述样本中所有所述第 一菌属的 绝对丰度的和的比值, 得到所述第一菌属的中间丰度; 判断所述中间丰度 是否小于第一预设阈值; 若是, 则将所述中间丰度置为0, 否则, 则保 持所述中间丰度不变, 得到所述第一菌属的调整后丰度; 计算所述第一菌属的调整后丰度与所述样本中所有所述第一菌属的调整后丰度的和 的比值, 得到所述第一菌属的相对丰度。 3.根据权利要求1所述的标记方法, 其特征在于, 所述根据 所述第一出现频率和所述相 对丰度之和对所有所述第一菌属进行筛选, 得到第二菌属具体包括: 在所有所述第一菌属 中去除所述第一出现频率小于第二预设阈值且所述相对丰度之和小于第三预设阈值的第 一菌属, 得到第二菌属。 4.根据权利要求1所述的标记方法, 其特征在于, 所述根据 所述平均相对丰度对所有所 述第二菌属进行筛选, 得到第三菌属具体包括: 选取所述平均相对丰度大于第四预设阈值 或者所述平均相对丰度小于第五预设阈值的第二菌属作为第三菌属。 5.根据权利要求1所述的标记方法, 其特征在于, 所述根据 所述第三菌属的平均相对丰 度计算所述第三菌属的平均相对丰度差异系数具体包括: 根据所述第三菌属的平均相对丰 度, 利用差异系数计算公式计算所述第三菌属的平均相对丰度差异系数; 所述差异系数计算公式包括: 权 利 要 求 书 1/3 页 2 CN 115472227 A 2其中, pAcontrol为第j个第三菌属的平均相对丰度差异系数; MAj为第j个第三菌属的平均 相对丰度; pj_mean为健康人群的第j个第三菌属的平均相对丰度。 6.根据权利要求1所述的标记方法, 其特征在于, 所述根据 所述平均相对丰度差异系数 对所有所述第三菌属进行筛选, 得到第四菌属具体包括: 选取所述平均相对丰度差异系 数 的绝对值大于第六 预设阈值的第三菌属作为第四菌属。 7.根据权利要求1所述的标记方法, 其特征在于, 所述根据所述平均相对丰度差异系 数、 所述第二出现频率和所述第三出现频率对所有所述第四菌属进行筛选, 得到差异菌属 具体包括: 选取所述平均相对丰度差异系数大于0的第四菌属作为所述疾病样本的第一优势菌 属; 选取所述平均相对丰度差异系数小于 0的第四菌属作为所述 健康样本的第二优势菌属; 选取所述第 二出现频率大于或等于所述第 三出现频率, 或者所述第 三出现频率与 所述 第二出现频率的差小于第七预设阈值的第一优势菌属作为差异菌属; 选取所述第 三出现频率大于或等于所述第 二出现频率, 或者所述第 二出现频率与 所述 第三出现频率的差小于所述第七预设阈值的第二优势菌属作为差异菌属。 8.一种肠道菌群特 征的分类 器建模评价方法, 其特 征在于, 所述方法包括: 利用权利要求1 ‑7任一项所述的标记方法获取差异菌属, 以多个样本中每一所述样本 的差异菌属的相对丰度作为样本数据, 构建样本集; 将所述样本集划分为训练集和测试集; 以所述训练集作为输入, 分别利用多种机器学 习算法进行建模, 得到每一所述机器学习算法对应的分类器模型; 所述机器学习算法包括 随机森林算法、 线性回归算法、 K ‑最近邻算法和决策树 算法; 以所述测试集作为输入, 根据评价指标评价每一所述机器学习算法对应的分类器模 型; 所述评价指标包括 准确率、 召回率、 F1 ‑score和ROC曲线。 9.一种肠道菌群特征的分类器模型, 其特征在于, 所述分类器模型基于一种肠道菌群 特征的分类 器建模评价方法构建: 利用权利要求1 ‑7任一项所述的标记方法获取差异菌属, 以多个样本中每一所述样本 的差异菌属的相对丰度作为样本数据, 构建样本集; 将所述样本集划分为训练集和测试集; 以所述训练集作为输入, 分别利用多种机器学 习算法进行建模, 得到每一所述机器学习算法对应的分类器模型; 所述机器学习算法包括 随机森林算法、 线性回归算法、 K ‑最近邻算法和决策树 算法; 以所述测试集作为输入, 根据评价指标评价每一所述机器学习算法对应的分类器模 型; 所述评价指标包括 准确率、 召回率、 F1 ‑score和ROC曲线。 10.一种终端设备, 包括处理器和计算机可读存储介质, 所述计算机可读存储介质用于 存储多条指令, 所述处理器用于实现各所述指 令, 其特征在于, 所述指令适于由所述处理器 加载并执 行以下处 理: 利用权利要求1 ‑7任一项所述的标记方法获取差异菌属, 以多个样本中每一所述样本 的差异菌属的相对丰度作为样本数据, 构建样本集; 将所述样本集划分为训练集和测试集; 以所述训练集作为输入, 分别利用多种机器学 习算法进行建模, 得到每一所述机器学习算法对应的分类器模型; 所述机器学习算法包括 随机森林算法、 线性回归算法、 K ‑最近邻算法和决策树 算法;权 利 要 求 书 2/3 页 3 CN 115472227 A 3

.PDF文档 专利 基于多维肠道菌群特征的标记方法及其应用

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于多维肠道菌群特征的标记方法及其应用 第 1 页 专利 基于多维肠道菌群特征的标记方法及其应用 第 2 页 专利 基于多维肠道菌群特征的标记方法及其应用 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:04:50上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。