(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210953283.6
(22)申请日 2022.08.09
(65)同一申请的已公布的文献号
申请公布号 CN 115035966 A
(43)申请公布日 2022.09.09
(73)专利权人 哈尔滨工业大 学 (深圳) (哈尔滨
工业大学深圳科技创新研究院)
地址 518000 广东省深圳市南 山区桃源街
道深圳大 学城哈尔滨工业大 学 (深圳)
(72)发明人 林熹 张靖梓 胡凯龙
(74)专利代理 机构 深圳市沃德知识产权代理事
务所(普通 合伙) 44347
专利代理师 高杰 郭梦霞
(51)Int.Cl.
G16C 60/00(2019.01)G06N 20/00(2019.01)
G06K 9/62(2022.01)
(56)对比文件
CN 111798940 A,2020.10.20
CN 112288191 A,2021.01.2 9
CN 114242178 A,202 2.03.25
US 2006074594 A1,20 06.04.06
郑贤德.钙钛矿型铋铅酸钡基超导体的合成
及超导性能研究. 《中国优秀硕士学位 论文全文
数据库 基础科 学辑》 .202 2,(第01期),第A0 05-
719页.
审查员 刘志军
(54)发明名称
基于主动学习和符号回归的超导体筛选方
法、 装置及设备
(57)摘要
本发明涉及人工智能技术, 揭露了一种基于
主动学习和符号回归的超导体筛选方法, 包括:
对材料数据进行多类型联合数据清洗, 得到有效
数据, 识别有效数据的数值计算特征、 化学特征、
空间群特征及掺杂特征; 将数值计算特征、 化学
特征、 空间群特征及掺杂特征进行关联度筛选,
得到特征子集; 利用预先训练的特征分析决策树
模型根据特征子集对有效数据中每种化合物的
超导能力进行分析, 并选取符合预设条件的化合
物为潜在高温超导体, 其中, 特征分析决策树模
型是通过主动学习及符号回归的方式预先训练
得到的回归模 型。 本发明还提出一种基于主动学
习和符号回归的超导体筛选装置及设备。 本发明
可以提高解析高温超导材 料筛选的精确度。
权利要求书3页 说明书18页 附图3页
CN 115035966 B
2022.11.04
CN 115035966 B
1.一种基于主动学习和符号回归的超导体筛 选方法, 其特 征在于, 所述方法包括:
对预先获取的多种化合物的材料数据进行多类型联合数据清洗, 得到有效数据, 并获
取预设人员对所述有效数据进行反馈得到的数值计算特 征;
逐个从所述有效数据中选取其中一种化 合物的有效数据为待提取 数据;
获取预设长度的空值向量, 按照独热编码方式将所述待提取数据中每个元素的比例填
入所述空值向量, 并将填充后的向量作为所述待提取 数据的化学计量特 征;
将所述待提取数据内每种元素在周期表上的周期数、 原子序数、 原子量汇集为所述待
提取数据的元 素统计特 征;
统计所述待提取数据内电子在不同电子层的数量和电子占比, 得到所述待提取数据的
电子结构特 征;
获取所述待提取数据在单一氧化状态存在电负性信 息, 并确定所述电负性信 息为所述
待提取数据的离 子化合物特征;
将所述化学计量特征、 所述元素统计特征、 所述电子结构特征和所述离子化合物特征
汇集为所述待提取 数据的化学 特征;
获取所述有效数据中每种化合物的空间群信息, 对所述空间群信息进行自然编号, 得
到空间群特 征;
根据所述有效数据中每种化 合物内每 个原子的占比提取每种化 合物的掺杂特 征;
将所述数值计算特征、 所述化学特征、 所述空间群特征及所述掺杂特征进行关联度筛
选, 得到特 征子集;
利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合
物的超导能力进行分析, 并选取符合预设条件的化合物为潜在高温超导体, 其中, 所述特征
分析决策树模型 是通过主动学习及符号回归的方式预 先训练得到的回归 模型。
2.如权利要求1所述的基于主动学习和符号 回归的超导体筛选方法, 其特征在于, 所述
对预先获取的多种化 合物的材 料数据进行多类型 联合数据清洗, 得到有效数据, 包括:
删除所述材 料数据内的重复数据, 得到非重复材 料数据;
利用以下至少两项操作的组合筛 选出所述非重复材 料数据中的异常数据:
构建所述非重复材料数据的分布散点图, 并根据 所述分布散点图筛选出所述非重复材
料数据的异常数据;
利用四分位距 箱型图法筛 选出所述非重复材 料数据的异常数据;
利用预先构建的随机森林概 率模型筛 选出所述非重复材 料数据的异常数据;
利用基于无监 督聚类的K ‑Means模型筛 选出所述非重复材 料数据的异常数据;
通过预设的数据修补方式对所述异常数据进行修补, 并删除所述非重复材料数据内无
法进行修补的数据, 得到有效数据。
3.如权利要求1所述的基于主动学习和符号 回归的超导体筛选方法, 其特征在于, 所述
利用预先训练的特征分析决策树模型根据所述特征子集对所述有效数据中每种化合物的
超导能力进行分析, 包括:
获取所述特征子集内每 个特征的描述符;
利用基于遗传算法的符号 回归学习方法, 构建超导材料临界转变温度和所述描述符之
间的变量关系;权 利 要 求 书 1/3 页
2
CN 115035966 B
2利用所述特征分析决策树模型根据所述变量关系对所述有效数据中每种化合物的超
导性能进行分析, 得到所述有效数据中每种化合物的超导材料临界转变温度, 完成超导能
力分析。
4.如权利要求1所述的基于主动学习和符号 回归的超导体筛选方法, 其特征在于, 所述
特征分析决策树模型为以梯度提升树作为核心算法进行训练得到的L ightGBM模型。
5.如权利要求4所述的基于主动学习和符号 回归的超导体筛选方法, 其特征在于, 所述
特征分析决策树模型 可利用如下算法表达:
其中, F(x)为特征分析决策树, x为输入至特征分析决策树模型中的样本, Im(x)为第m
棵决策树, cmj为第m棵决策树内第j个参数的权重, M为决策树的总数量, J为第m棵决策树内
参数的总数量。
6.如权利要求4所述的基于主动学习和符号 回归的超导体筛选方法, 其特征在于, 所述
以梯度提升树作为核心算法进行训练包括:
计算所述特 征分析决策树模型的损失值;
根据所述损失值对所述特 征分析决策树模型进行负梯度方向的加 和更新;
利用预设样本测试 更新后的特 征分析决策树模型的模型性能指标;
当所述模型性能指标小于或等于预设阈值 时, 返回根据 所述损失值对所述特征分析 决
策树模型进行负梯度方向的加 和更新的步骤;
当所述模型性能指标 大于预设阈值时, 完成对所述特 征分析决策树模型的训练。
7.如权利要求6所述的基于主动学习和符号 回归的超导体筛选方法, 其特征在于, 所述
计算所述特 征分析决策树模型的损失值, 包括:
利用如下平方误差损失函数计算所述特 征分析决策树模型的损失值:
其中, LMES为平方误差损失函数的输出值, N代表样本的总数量, yi为样本xi对应的真实
值, γ为决策树叶节 点的正则化项, K为当前决策树的叶节点个数, λ为L2 正则化项的系数, a
为L1正则化项的系 数, Wk为当前决策树的第k个叶节点, Fm ‑1(xi)为第m ‑1个特征分析决策
树模型对于第xi个样本的输出值。
8.一种基于主动学习和符号回归的超导体筛 选装置, 其特 征在于, 所述装置包括:
数据清洗模块, 用于对预先获取的多种化合物的材料数据进行多类型联合数据清洗,
得到有效数据, 并获取 预设人员对所述有效数据进行反馈得到的数值计算特 征;
第一特征提取模块, 用于逐个从所述有 效数据中选取其中一种化合物的有 效数据为待
提取数据, 获取预设长度的空值向量, 按照独热编码方式将所述待提取数据中每个元素 的
比例填入所述空值向量, 并将填充后的向量作为所述待提取数据的化学计量特征, 将所述
待提取数据内每种 元素在周期表上 的周期数、 原子序数、 原子量汇集为所述待提取数据的
元素统计特征, 统计所述待提取数据内电子在不同电子层的数量和电子占比, 得到所述待
提取数据的电子结构特征; 获取所述待提取数据在单一氧化状态存在电负性信息, 并确定
所述电负性信息为所述待提取数据的离子化合物特征, 将所述化学计量特征、 所述元素统权 利 要 求 书 2/3 页
3
CN 115035966 B
3
专利 基于主动学习和符号回归的超导体筛选方法、装置及设备
文档预览
中文文档
25 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 13:04:38上传分享