说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111565484.0 (22)申请日 2021.12.20 (71)申请人 哈尔滨工程大 学 地址 150001 黑龙江省哈尔滨市南岗区南 通大街145号哈尔滨工程大学科技处 知识产权办公室 (72)发明人 高伟 刘清泰 马瑞  (51)Int.Cl. G16B 40/00(2019.01) G06K 9/62(2022.01) G06N 20/00(2019.01) (54)发明名称 一种逻辑回归与多示例学习相结合的BCR分 类方法 (57)摘要 本发明属于基于机器学习的BCR相关疾病筛 查技术领域, 具体涉及一种逻辑回归与多示例学 习相结合的BCR分类方法。 本发明应用多示例学 习的思想, 将氨基酸序列相同的BCR序列 “聚类” 为包, 将同时包含阳性与阴性的同序列包标记为 阳性。 本发明能够有效降低基于机器学习的BCR 相关疾病筛查中的假阴性率, 提高目前正处于试 探性研究阶段的BCR相关疾病筛查的实际应用 性。 权利要求书1页 说明书4页 附图2页 CN 114242171 A 2022.03.25 CN 114242171 A 1.一种逻辑回归与多示例学习相结合的BCR分类方法, 其特 征在于, 包括以下步骤: 步骤1: 获取BCR数据集, 按照生物信息国际标准格式, 首先将productive项为F的无效 数据删除, 之后仅保留sequence_id与代表氨基酸序列的junction_aa数据, 并记录数据集 的初始标签, 之后将序列相同的数据聚类到多示例 学习的一个包Di, 如果包中存在阳性个 例则整个包的标签为阳性, 只有包中所有个例均为阴性包的标签才为阴性; 每个单个的数 据是该包中的示例{L0,L1,...,LS}∈Di; 步骤2: 取 阳性样本集{D0,D1,...,Di}和阴性样本集{Di+1,Di+2,...,Dn}组成训练集; 步骤3: 使用k ‑mer算法将训练集 中氨基酸序列数据转化为等长的子序列, 长度为L的氨 基酸序列切割为长度为k的连续子序列, 之后代表氨基酸的字符串序列就可以解析为(L ‑k+ 1)mers; 根据排列组合计算可以得出总共有多少种mers, 而每种mer的数量就是经过k ‑mer 算法处理后的基因序列数据; 其中k的 的选取要通过初步试验获得, 一般范围在3 ‑8; 步骤4: 使用Atchley因子将子序列表中的字母转化为一组5个数据, 代表其物理化学性 质; Atchley因子是一组高度可解释的氨基酸变异数字模式, 这些高维属性数据由反映极 性、 二级结构、 分子体积、 密码子多样性和静电电荷的五种属性共变的多维模式进行总结, 是一个自然的基础度量 来比较这些代 表氨基酸的字母数据; 步骤5: 将经过步骤4处理后的训练集数据输入逻辑回归模型中进行训练, 梯度下降的 方法选用Adam优化器; 步骤6: 获取待分类的BCR数据, 不予聚类, 仅做k ‑mer算法与Atchley因子的复合处理后 输入训练好的逻辑回归模 型中, 逻辑回归模型输出BCR数据属于阳性概率; 若 阳性概率大于 0.5, 则判定BCR数据属于阳性, 否则为阴性。权 利 要 求 书 1/1 页 2 CN 114242171 A 2一种逻辑回归与多示例学习相结 合的BCR分类方 法 技术领域 [0001]本发明属于基于机器学习的BCR相关疾病筛查技术领域, 具体涉及一种逻辑回归 与多示例学习相结合的BCR分类方法。 背景技术 [0002]人体无时不刻都承受着外部的侵袭, 而保护人类的最重要的防线正是人类身体的 防御机制, 也就是免疫系统。 每个人的免疫系统都是一种三层结构, 前两层 包括皮肤、 粘液、 抗菌蛋白、 吞噬细胞等直接的保卫结构, 而当前两层无法阻止外 敌侵入的时候, 就是第三层 防御结构出场的时候了, 第三层主要包括免疫器官与免疫细胞, 通过血液 的循环作用保护 人类的身体。 [0003]淋巴细胞是免疫细胞的一种, 是一种能够记忆免疫过程的特殊的细胞。 淋巴细胞 又可以分为两种, 也就是T淋巴细胞和B淋巴细胞, 这其中T细胞占淋巴细胞中的大多 数, T淋 巴细胞的作用很多, 包括直接消灭抗原, 调控B细胞的生成抗体功能, 对特定抗原的特异性 反应与产生细胞因子等。 而从骨髓中产生的多功能干细胞骨髓依赖性淋巴细胞简称B细胞, B细胞从造血干细胞中发育而来。 图1位显微镜下的B细胞。 B细胞表 面受体(BCR)的CDR3区域 是其识别抗原, 结合抗原的重要 结构, 造血干细胞发育为B细胞的过程中VH上的三组基因片 段(V、 D、 J)的随机重组, 并且随机重组过程中会随机的插入或者减少一部 分碱基, 依次形成 数以万计的不同的随机序列, 用来结合自然界产生的各种不同的抗原。 当BCR成功与抗原结 合B细胞便会快速分化产生大量带有相同BCR的B细胞, 以此为依据产生了通过检测人体内 的BCR判断其体内是否存在目标抗原的疾病筛查方法。 [0004]并且随着交叉学科生物信息的快速发展, 越来越多的医学领域研究使用了机器学 习来分析数据进行分类。 其中逻辑回归这种算法备受研究者的关注, 因为逻辑回归非常适 合对不同分类的概率分析, 并且模型清晰, 输出数据具有极高的数学分析价值。 同样诞生于 生物医学 的多示例学习也是生物信息研究中常用的算法思想。 多示例学习的基本思想是, 将数据“聚类”为一个个数据包, 当数据包均为负时, 则为负包, 如果包中数据有一个为正例 则为正包。 由于生物信息中存在非常多可能存在大量噪声的数据分析类型 的研究实验, 而 多示例学习恰恰因其特性能够 满足很多生物信息的特定场景对数据分析与处理的要求, 所 以多示例学习与很多生物信息的相关研究契合度非常高。 [0005]由于通过BCR筛查疾病的研究目前正处于起步与探索阶段, 所以其结果的准确率 并非能够达到应用水平, 而 预测值与实际值之前存在误差有两种情况, 那就是假阴和假阳, 一般情况下又以假阴性危害更大。 以新冠肺炎的疾病筛查为例, 如果出现了假阴, 也就是将 新冠肺炎患者错诊为健康, 不仅对患者来说延误了治疗时机, 同时也会对社会造成重大危 害, 所以如何降低假阴性概率对疾病筛查来说极其重要。 由于BCR是依靠随机生成CDR3序列 与抗原结合, 所以健康的人的身体中未必不能存在可以与目标抗原结合的BCR, 同时数据获 取的过程中还有多种情况会导致误差产生, 就算以上情况都已经排除还是有 可能存在人类 目前未知的因素影响导致出现不理想的数据集, 这些情况就为筛查结果中出现假阴性埋下说 明 书 1/4 页 3 CN 114242171 A 3

.PDF文档 专利 一种逻辑回归与多示例学习相结合的BCR分类方法

文档预览
中文文档 8 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种逻辑回归与多示例学习相结合的BCR分类方法 第 1 页 专利 一种逻辑回归与多示例学习相结合的BCR分类方法 第 2 页 专利 一种逻辑回归与多示例学习相结合的BCR分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 23:16:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。