专利一种基于XGBoost与MLP的客户流失预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211156957.6 (22)申请日 2022.09.22 (71)申请人中电科申泰信息科技有限公司地址 214000 江苏省无锡市滨湖区绣溪路 50号2号楼6层 (72)发明人唐琪　张昊　朱仪　蒋敏　范昌华　张取义　 (74)专利代理机构无锡派尔特知识产权代理事务所(普通合伙) 32340 专利代理师杨立秋 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于XGBoost与MLP的客户流失预测方法 (57)摘要本发明涉及一种基于XGBoost与MLP的客户流失预测方法，所述预测方法使用环境在申威平台上，且能够改善客户流失预测系统的准确性以及时效性，所述预测方法分为两个阶段：第一阶段，提取客户数据中的数值型特征，使用XGBoo st 算法计算出叶子节点的编号，并转换为one ‑hot 向量；第二阶段，使用MLP处理叶子节点的one ‑ hot向量和原始离散特征转化的one ‑hot向量，获得预测结果。与传统的客户流失预测算法相比，该算法能够大幅提高预测准确率。同时，该方法支持并行计算，依靠申威CPU强大的并行计算能力，能大幅改善时效性。权利要求书2页说明书6页附图1页 CN 115482039 A 2022.12.16 CN 115482039 A 1.一种基于XGBoost与MLP的客户流失预测方法，所述预测方法使用环境在申威平台上，且能够改善客户流失预测系统的准确性以及时效性，其特征在于，包括如下步骤：步骤S1：收集相关的客户历史数据包括流失客户与非流失客户的多属性数据，并打上对应的标签以形成相应的训练数据；步骤S2：计算特征的方差，然后排序并删除方差较低的特征，可以提高预测准确度并降低计算量；步骤S3：将数值型特征中缺失的数据替换为该特征的平均值，再进行Z ‑Score归一化处理；步骤S4：使用o ne‑hot编码处理离散型特征，整理预处理后客户数据；步骤S5：使用XGBoost算法处理数值型特征，将计算后获得的叶子节点的编号替代原有的数值型特征，然后将更新后的客户数据输入MLP，构建损失函数，使用梯度下降算法训练预测模型；步骤S6：将训练好的预测模型部署在申威服务器上，计算出企业客户的流失概率。 2.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法，其特征在于：所述步骤S1中标签以形成相应的客户数量为M特征数量为N的训练数据D＝{(xi,yi)|i＝1,…,M}，其中客户标签yi＝{0,1}表示如果yi＝0则客户为非流失客户， yi＝1则客户为流失客户；另外定义predi为客户流失预测系统的预测值。 3.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法，其特征在于：所述步骤S2方差的计算公式如下：对N个特征分别计算方差后，根据方差将特征从高到低排序，并删除方差低的特征。 4.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法，其特征在于：所述步骤S3中归一化处理公式，如下： 5.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法，其特征在于：所述步骤S4中one ‑hot编码将输入样本处理后转变为高维的稀疏向量，其中的输入样本为[Gender ＝Male,We ekday＝Mo nday,Count ry＝China]： 6.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法，其特征在于：所述步骤S4中客户数据处理后整理成相应的客户数量为m，特征数量为n的训练数据D＝{(xi,yi)|i ＝1,…,m}，其中 7.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法，其特征在于：所述步骤S5中XGBoost算法定义为第i个样本在第t次迭代的预测值， T为叶子节点的数量，损失函数则为：权　利　要　求　书 1/2 页 2 CN 115482039 A 2其中， ft(xi)表示残差， Ω(ft)表示正则化；然后使用二阶泰勒展开式将损失函数展开：其中，和分别为一阶导数和二阶导数；常数项l(yi,pred(t‑1))可以被简化为：通过计算可以得出最优权重：另外，分裂候选集可通过以下公式计算：当使用XGBoost训练预测模型后，对生成的每颗分类回归树(CART)叶子节点编号进行 one‑hot编码处理，并导出与原始离散特征处理后的one‑hot向量拼接： e＝[e1,e2,...， ed， eDis] 其中， d为生成的CART数量， eDis即为原始离散特征处理后的one‑hot向量；将处理后的客户数据输入MLP，激活函数使用Elu函数：其中， α为超参数；相比于Sigmoid函数与Relu函数， Elu函数可以有效地防止梯度消失并增加负值信息；在输出层，只有一个神经元，并使用Sigmo id函数：该函数可以使输出值介于0到1之间，当输出值大于或等于0.5时，则意味该客户是潜在流失客户，否则即为正常客户。权　利　要　求　书 2/2 页 3 CN 115482039 A 3

专利 一种基于XGBoost与MLP的客户流失预测方法

专利一种基于XGBoost与MLP的客户流失预测方法