说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111489650.3 (22)申请日 2021.12.08 (71)申请人 北京邮电大 学 地址 100876 北京市海淀区西土城路10号 (72)发明人 罗娟娟 蒋玲玲  (74)专利代理 机构 北京柏杉松知识产权代理事 务所(普通 合伙) 11413 代理人 马敬 赵元 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/00(2006.01) G06N 20/00(2019.01) (54)发明名称 一种特征选择方法、 装置、 电子设备和存储 介质 (57)摘要 本发明实施例提供了一种特征选择方法、 装 置、 电子设备和存储介质, 上述方法包括: 获取训 练样本集, 计算多个样本的同一维度特征所构成 的特征集合中的每一维度的特征对应的条件熵, 并基于条件熵计算该维度的特征对应的被选择 概率; 基于各维度的特征对应的被选择概率, 初 始化预设数量个粒子, 针对每个粒子中的每个元 素, 若该元素的值大于预设特征阈值, 确定该粒 子中的该元素对应的特征被选择, 得到该粒子对 应的一组被选择的特征子集; 基于各个粒子对应 的被选择的特征子集确定目标函数的值, 如果目 标函数收敛, 确定每个样本被选择的特征, 作为 目标特征; 如果目标函数未收敛, 自适应更新各 个粒子。 采用该方法, 提高了机器学习算法的收 敛速度。 权利要求书3页 说明书14页 附图2页 CN 114154584 A 2022.03.08 CN 114154584 A 1.一种特 征选择方法, 其特 征在于, 包括: 获取训练样本集, 其中, 所述训练样本集包括多个样本, 每 个所述样本包括D维特 征; 针对多个样本的同一维度特征所构 成的特征集合中的每一维度的特征, 计算该维度的 特征对应的条件熵, 并基于所述条件熵计算该维度的特 征对应的被选择概 率; 基于各维度的特征对应的被选择概率, 通过粒子群优化算法初始化预设数量个粒子, 其中, 每个所述粒子对应一个决策变量, 决策变量包括D个元素, 每个元素与一个维度的特 征相对应; 针对每个粒子中的每个元素, 若该元素的值大于预设特征阈值, 确定该粒子中的该元 素对应的特 征被选择, 得到该 粒子对应的一组被选择的特 征子集; 基于各个粒子对应的被选择的特征子集确定目标函数的值, 所述目标函数的值用于表 征每个样本的特 征选择比例和特 征分类错 误率; 基于所述目标函数的值确定所述目标函数 是否收敛; 如果所述目标函数收敛, 确定每 个样本被选择的特 征, 作为目标 特征; 如果所述目标函数未收敛, 更新各个粒子, 并返回所述针对每个粒子中的每个元素, 若 该元素的值大于预设特 征阈值, 确定该 粒子中的该 元素对应的特 征被选择的步骤。 2.根据权利要求1所述的方法, 其特征在于, 所述计算该维度的特征对应的条件熵, 包 括: 采用如下公式计算该维度的特 征对应的条件熵: 其中, L为训练样本集中包 括的样本 所属类别集合, Fm为训练样本集中的多个样本的第m 维特征所构成的特征集合, H(L|Fm)为该维度的特征Fm对应的条件熵, 表示Fm的子事件, 为Fm通过聚类算 法所得的第t 类聚类结果, l为L的子事件, 为联合概率, 表示 训练样本集中的样本同时属于子事件 和l类的概率, 为条件概率, 表示 在子事件 条件下样本属于l类的概 率。 3.根据权利要求1所述的方法, 其特征在于, 所述基于所述条件熵计算该维度的特征对 应的被选择概 率, 包括: 采用如下公式基于所述条件熵计算该维度的特 征对应的被选择概 率: 其中, P(L|Fm)为该维度的特征Fm对应的被选择概率, L为训练样本集中包括的样本所属 类别集合, Fm为训练样本集中的多个样本的第m维特征所构成的特征集合, H(L|Fm)为该维度 的特征对应的条件熵, D为样本包括的特 征维数。 4.根据权利要求1所述的方法, 其特征在于, 所述基于各维度的特征对应的被选择概 率, 通过粒子群优化 算法初始化预设数量个粒子, 包括: 设置预设数量个包 含D个元素的决策变量对应的粒子; 针对每个粒子中的每个元素, 生成均匀随机数, 若所述均匀随机数小于该元素对应的权 利 要 求 书 1/3 页 2 CN 114154584 A 2特征的被选择概率, 为该粒子的该元素赋予大于预设特征阈值且小于等于1的值, 否则, 为 该粒子的该 元素赋予大于零且小于预设特 征阈值的值; 得到预设数量个初始化后的粒子 。 5.根据权利要求1所述的方法, 其特 征在于, 采用如下公式表示所述目标函数: 其中, X={x1, x2, ..., xj, ..., xD}为决策变量, 为决策变量X所选择的特 征比例, xj为决策变量X的第j个元素, threshold为预设特征阈值, D为样本包括的特征的维 数, N为训练样本集中的样本数量, 表示采用决策变量X所选特征 集合进行分类的分类错误率, ak表示训练样本集中的第k个样本, ak(X)表示采用决策变量X 所选特征的样本ak, lk为ak的真实类别标识, f(ak(X))表示样本ak(X)经过分类后所得类标, 若样本ak(X)分类后结果与真实类别标识结果相同, 则δ(f(ak(X)), lk)=0, 否则δ(f(ak (X)), lk)=1。 6.根据权利要求1所述的方法, 其特 征在于, 所述更新各个粒子, 包括: 确定每个粒子的当前速度信息和当前位置信息; 基于每个粒子的当前速度信 息和当前位置信 息, 确定该粒子的各个元素在下一时刻的 速度, 得到该 粒子更新后的位置信息 。 7.根据权利要求6所述的方法, 其特征在于, 所述基于每个粒子的当前速度信 息和当前 位置信息, 确定该 粒子的各个元 素在下一时刻的速度, 包括: 采用如下公式基于每个粒子的当前速度信 息和当前位置信 息, 确定该粒子的各个元素 在下一时刻的速度: w=0.9‑0.5exp(‑r); 其中, H(L|Fm)为特征Fm对应的条件熵, threshold为预设特征 阈值, xm为当前粒子的第m 个元素, t为迭代的次数, Vi(t+1)为第i个粒子在t+1代的速度, r1和r2为为0到1之间的随机 数, Vi(t)为第i个粒子的当前速度, Xi(t)为第i个粒子的当前位置信息, w为惯性权重, r表示 当前解所选择特征的平均不确定性, Pi best(t)为第i个粒子的当前个体最优解, Gi best(t)为 全局最优解, w*Vi(t)表示第i个粒子维持之前运动状态的趋势, c1和c2为学习因子, 表示第i个粒子向 自身最优解靠近, 表 示第i个粒子向全局最优解靠近; 解的质量越高则r值越小w的值越小, 且第i个粒子在当前 解周围进行局部搜索的概率越大; 反之, 解的质量越差, w值越大, 且第i个粒子进行全局搜 索的概率越大。 8.一种特 征选择装置, 其特 征在于, 包括: 样本获取模块, 用于获取训练样本集, 其中, 所述训练样本集包括多个样本, 每个所述 样本包括D维特 征;权 利 要 求 书 2/3 页 3 CN 114154584 A 3

.PDF文档 专利 一种特征选择方法、装置、电子设备和存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种特征选择方法、装置、电子设备和存储介质 第 1 页 专利 一种特征选择方法、装置、电子设备和存储介质 第 2 页 专利 一种特征选择方法、装置、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:20:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。