专利一种特征选择方法、装置、电子设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111489650.3 (22)申请日 2021.12.08 (71)申请人北京邮电大学地址 100876 北京市海淀区西土城路10号 (72)发明人罗娟娟　蒋玲玲　 (74)专利代理机构北京柏杉松知识产权代理事务所(普通合伙) 11413 代理人马敬　赵元 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/00(2006.01) G06N 20/00(2019.01) (54)发明名称一种特征选择方法、装置、电子设备和存储介质 (57)摘要本发明实施例提供了一种特征选择方法、装置、电子设备和存储介质，上述方法包括：获取训练样本集，计算多个样本的同一维度特征所构成的特征集合中的每一维度的特征对应的条件熵，并基于条件熵计算该维度的特征对应的被选择概率；基于各维度的特征对应的被选择概率，初始化预设数量个粒子，针对每个粒子中的每个元素，若该元素的值大于预设特征阈值，确定该粒子中的该元素对应的特征被选择，得到该粒子对应的一组被选择的特征子集；基于各个粒子对应的被选择的特征子集确定目标函数的值，如果目标函数收敛，确定每个样本被选择的特征，作为目标特征；如果目标函数未收敛，自适应更新各个粒子。采用该方法，提高了机器学习算法的收敛速度。权利要求书3页说明书14页附图2页 CN 114154584 A 2022.03.08 CN 114154584 A 1.一种特征选择方法，其特征在于，包括：获取训练样本集，其中，所述训练样本集包括多个样本，每个所述样本包括D维特征；针对多个样本的同一维度特征所构成的特征集合中的每一维度的特征，计算该维度的特征对应的条件熵，并基于所述条件熵计算该维度的特征对应的被选择概率；基于各维度的特征对应的被选择概率，通过粒子群优化算法初始化预设数量个粒子，其中，每个所述粒子对应一个决策变量，决策变量包括D个元素，每个元素与一个维度的特征相对应；针对每个粒子中的每个元素，若该元素的值大于预设特征阈值，确定该粒子中的该元素对应的特征被选择，得到该粒子对应的一组被选择的特征子集；基于各个粒子对应的被选择的特征子集确定目标函数的值，所述目标函数的值用于表征每个样本的特征选择比例和特征分类错误率；基于所述目标函数的值确定所述目标函数是否收敛；如果所述目标函数收敛，确定每个样本被选择的特征，作为目标特征；如果所述目标函数未收敛，更新各个粒子，并返回所述针对每个粒子中的每个元素，若该元素的值大于预设特征阈值，确定该粒子中的该元素对应的特征被选择的步骤。 2.根据权利要求1所述的方法，其特征在于，所述计算该维度的特征对应的条件熵，包括：采用如下公式计算该维度的特征对应的条件熵：其中， L为训练样本集中包括的样本所属类别集合， Fm为训练样本集中的多个样本的第m 维特征所构成的特征集合， H(L|Fm)为该维度的特征Fm对应的条件熵，表示Fm的子事件，为Fm通过聚类算法所得的第t 类聚类结果， l为L的子事件，为联合概率，表示训练样本集中的样本同时属于子事件和l类的概率，为条件概率，表示在子事件条件下样本属于l类的概率。 3.根据权利要求1所述的方法，其特征在于，所述基于所述条件熵计算该维度的特征对应的被选择概率，包括：采用如下公式基于所述条件熵计算该维度的特征对应的被选择概率：其中， P(L|Fm)为该维度的特征Fm对应的被选择概率， L为训练样本集中包括的样本所属类别集合， Fm为训练样本集中的多个样本的第m维特征所构成的特征集合， H(L|Fm)为该维度的特征对应的条件熵， D为样本包括的特征维数。 4.根据权利要求1所述的方法，其特征在于，所述基于各维度的特征对应的被选择概率，通过粒子群优化算法初始化预设数量个粒子，包括：设置预设数量个包含D个元素的决策变量对应的粒子；针对每个粒子中的每个元素，生成均匀随机数，若所述均匀随机数小于该元素对应的权　利　要　求　书 1/3 页 2 CN 114154584 A 2特征的被选择概率，为该粒子的该元素赋予大于预设特征阈值且小于等于1的值，否则，为该粒子的该元素赋予大于零且小于预设特征阈值的值；得到预设数量个初始化后的粒子。 5.根据权利要求1所述的方法，其特征在于，采用如下公式表示所述目标函数：其中， X＝{x1， x2， ...， xj， ...， xD}为决策变量，为决策变量X所选择的特征比例， xj为决策变量X的第j个元素， threshold为预设特征阈值， D为样本包括的特征的维数， N为训练样本集中的样本数量，表示采用决策变量X所选特征集合进行分类的分类错误率， ak表示训练样本集中的第k个样本， ak(X)表示采用决策变量X 所选特征的样本ak， lk为ak的真实类别标识， f(ak(X))表示样本ak(X)经过分类后所得类标，若样本ak(X)分类后结果与真实类别标识结果相同，则δ(f(ak(X))， lk)＝0，否则δ(f(ak (X))， lk)＝1。 6.根据权利要求1所述的方法，其特征在于，所述更新各个粒子，包括：确定每个粒子的当前速度信息和当前位置信息；基于每个粒子的当前速度信息和当前位置信息，确定该粒子的各个元素在下一时刻的速度，得到该粒子更新后的位置信息。 7.根据权利要求6所述的方法，其特征在于，所述基于每个粒子的当前速度信息和当前位置信息，确定该粒子的各个元素在下一时刻的速度，包括：采用如下公式基于每个粒子的当前速度信息和当前位置信息，确定该粒子的各个元素在下一时刻的速度： w＝0.9‑0.5exp(‑r)；其中， H(L|Fm)为特征Fm对应的条件熵， threshold为预设特征阈值， xm为当前粒子的第m 个元素， t为迭代的次数， Vi(t+1)为第i个粒子在t+1代的速度， r1和r2为为0到1之间的随机数， Vi(t)为第i个粒子的当前速度， Xi(t)为第i个粒子的当前位置信息， w为惯性权重， r表示当前解所选择特征的平均不确定性， Pi best(t)为第i个粒子的当前个体最优解， Gi best(t)为全局最优解， w*Vi(t)表示第i个粒子维持之前运动状态的趋势， c1和c2为学习因子，表示第i个粒子向自身最优解靠近，表示第i个粒子向全局最优解靠近；解的质量越高则r值越小w的值越小，且第i个粒子在当前解周围进行局部搜索的概率越大；反之，解的质量越差， w值越大，且第i个粒子进行全局搜索的概率越大。 8.一种特征选择装置，其特征在于，包括：样本获取模块，用于获取训练样本集，其中，所述训练样本集包括多个样本，每个所述样本包括D维特征；权　利　要　求　书 2/3 页 3 CN 114154584 A 3

专利 一种特征选择方法、装置、电子设备和存储介质

专利一种特征选择方法、装置、电子设备和存储介质