说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111638511.2 (22)申请日 2021.12.2 9 (71)申请人 北京大学 地址 100871 北京市海淀区颐和园路5号 (72)发明人 莫凡洋 徐浩 张东晓  (74)专利代理 机构 北京万象新悦知识产权代理 有限公司 1 1360 代理人 李稚婷 (51)Int.Cl. G16C 20/30(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种基于机器学习的比移值预测方法 (57)摘要 本发明公开了一种基于机器学习的比移值 预测方法, 采集化合物、 展 开剂和比移值数据, 通 过机器学习方法建立比移值预测模 型, 能够快速 准确地预测出目标化合物在目标展开剂体系下 的比移值曲线, 并根据曲线 给出最优展开剂配比 方案, 使得 实验获得的比移值不至于过大或者过 小, 极大地减少了薄层色谱分析技术对实验者经 验的依赖, 解决了展开剂选择的问题, 避免了枯 燥的重复实验, 极大地提升了极性测定的效率, 节省了时间和人力成本。 本发明将 机器学习技术 引入实验化学领域, 使 得没有实验 条件的情况下 获取化合物的比移值成为一种可能, 在实验化 学、 药物合成与分析等领域有着广泛应用和重要 意义。 权利要求书2页 说明书5页 附图4页 CN 114171133 A 2022.03.11 CN 114171133 A 1.一种基于 机器学习的比移值预测方法, 包 含如下步骤: 1)数据采集与清洗: 采集化合物、 展开剂和比移植数据并进行数据清洗, 获取完整、 无 重复、 无异常值的极性数据集; 2)数据预处理: 对清洗后的数据进行预处理, 包括: 通过分子指纹、 偶极矩和分子描述 符来表征化合物的分子结构与性质, 使用展开剂配比向量表示展开剂体系及配比; 预处理 后的每条 数据的信息向量包 含多个维度, 由此生成输入信息矩阵; 3)模型训练: 将预处理后的数据划分为训练集和验证集, 分别 使用Sigmoid函数约束的 XGBoost、 LightGBM、 神经网络算法在训练集上进行训练, 将训练好的三个模型集成为一个 集成模型用以预测比移值, 在训练过程中利用验证集采用交叉验证的方法防止过拟合; 4)模型预测: 利用步骤3)训练好的比移值预测模型对目标化合物在目标展开剂体系下 的比移值曲线 进行预测。 2.如权利要求1所述的比移值预测方法, 其特征在于, 步骤1)采集的数据包括化合物的 化学分子式, 所使用的展开剂体系及配比, 以及化合物在该展开剂体系和配比下的比移 值; 数据清洗包括: a)如果化合物的化学分子式, 所使用的展开剂 体系及配比, 以及在该展开剂 体系和配比下的比移值中有任意一个缺失, 则去除该条数据; b)去除实验测定的比移值不 合法的数据, 即比移值大于1或者小于0的数据; c)去除重复数据, 只保留其中一条或保留重 复数据的均值。 3.如权利要求1所述的比移值预测方法, 其特征在于, 步骤2)中所述分子指纹使用 MACCSkeys指纹和/或Morgan指纹; 所述分子描述符包含分子量、 拓扑极性表 面积、 可旋转键 的个数、 氢键供体个数、 氢键受体个数、 脂水分配系数值; 所述偶极矩是正、 负电荷中心间的 距离和电荷中心所带电量的乘积; 所述展开剂体系 涉及N种展开剂, 则使用一个N维的向量 表示展开剂体系及配比。 4.如权利要求1所述的比移值预测方法, 其特征在于, 步骤3)中所述Sigmoid函数为: Sigmoid函数的值域为(0,1); XGBoost、 LightGBM和神经网络算法通过python实现, 设 训练好的模型分别为gXGB, gLGB和gANN, 则集成模型表示 为: 5.如权利要求1所述的比移值预测方法, 其特征在于, 在步骤3)中, 随机选取一些数据 作为测试集, 模型的预测能力由模型在测试集上的决定系数R2衡量, 其计算公式如下: 其中N是测试集中样 本的个数, yi是真实的比移值, 是真实比移值的均值, 是预测的 比移值; R2越接近1代表模型的预测能力越强。 6.如权利要求1所述的比移值预测方法, 其特征在于, 步骤4)对于要预测的目标化合物权 利 要 求 书 1/2 页 2 CN 114171133 A 2和目标展开剂体系及配比, 先将其转化为输入信息矩阵, 直接输入到训练好的集成模型中, 即可得到预测的比移值。 7.如权利要求1所述的比移值预测方法, 其特征在于, 步骤4)在利用训练好的比移值预 测模型预测出比移值曲线后, 根据比移值曲线给 出最优展开剂配比方案 。 8.如权利要求1所述的比移值预测方法, 其特征在于, 所述比移值预测方法还包括步骤 5)反馈更新: 根据实验反馈的数据自动更新和修 正比移值预测模型。权 利 要 求 书 2/2 页 3 CN 114171133 A 3

.PDF文档 专利 一种基于机器学习的比移值预测方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于机器学习的比移值预测方法 第 1 页 专利 一种基于机器学习的比移值预测方法 第 2 页 专利 一种基于机器学习的比移值预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:28:10上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。