(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211156957.6
(22)申请日 2022.09.22
(71)申请人 中电科申泰信息科技有限公司
地址 214000 江苏省无锡市滨湖区绣溪路
50号2号楼6层
(72)发明人 唐琪 张昊 朱仪 蒋敏 范昌华
张取义
(74)专利代理 机构 无锡派尔特知识产权代理事
务所(普通 合伙) 32340
专利代理师 杨立秋
(51)Int.Cl.
G06Q 30/02(2012.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种基于XGBoost与MLP的客户流失预测方
法
(57)摘要
本发明涉及一种基于XGBoost与MLP的客户
流失预测方法, 所述预测方法使用环 境在申威平
台上, 且能够改善客户流失预测系统的准确性以
及时效性, 所述预测方法分为两个阶段: 第一阶
段, 提取客户数据中的数值型特征, 使用XGBoo st
算法计算出叶子节点的编号, 并转换为one ‑hot
向量; 第二阶段, 使用MLP处理叶子节点的one ‑
hot向量和原始 离散特征转化的one ‑hot向量, 获
得预测结果。 与传统的客户流失预测算法相比,
该算法能够大幅提高预测准确率。 同时, 该方法
支持并行计算, 依靠申威CPU强大的并行计算能
力, 能大幅 改善时效性。
权利要求书2页 说明书6页 附图1页
CN 115482039 A
2022.12.16
CN 115482039 A
1.一种基于XGBoost与MLP的客户流失预测方法, 所述预测方法使用环境在申威平台
上, 且能够改善客户流失预测系统的准确性以及时效性, 其特 征在于, 包括如下步骤:
步骤S1: 收集相关的客户历史数据包括流失客户与非流失客户的多属性数据, 并打上
对应的标签以形成相应的训练数据;
步骤S2: 计算特征的方差, 然后排序并删除方差较低的特征, 可以提高预测准确度并降
低计算量;
步骤S3: 将数值型特征中缺失的数据 替换为该特征的平均 值, 再进行Z ‑Score归一化处
理;
步骤S4: 使用o ne‑hot编码处 理离散型特征, 整理预处 理后客户数据;
步骤S5: 使用XGBoost算法处理数值型特征, 将计算后获得的叶子节点的编号替代原有
的数值型特征, 然后将更新后的客户数据输入MLP, 构建损失函数, 使用梯度下降算法训练
预测模型;
步骤S6: 将训练好的预测模型部署在申威 服务器上, 计算出企业 客户的流失概 率。
2.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步
骤S1中标签以形成相应的客户数量为M特征数量为N的训练数据D={(xi,yi)|i=1,…,M},
其中
客户标签yi={0,1}表示如果yi=0则客户为非流失客户, yi=1则客户
为流失客户; 另外 定义predi为客户流失预测系统的预测值。
3.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步
骤S2方差的计算公式如下:
对N个特征分别计算方差后, 根据方差将特 征从高到低排序, 并删除方差低的特 征。
4.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步
骤S3中归一 化处理公式, 如下:
5.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步
骤S4中one ‑hot编码将输入样 本处理后转变为高维的稀 疏向量, 其中的输入样 本为[Gender
=Male,We ekday=Mo nday,Count ry=China]:
6.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步
骤S4中客户数据处理后整理成相应的客户数量为m, 特征数量为n的训练数据D={(xi,yi)|i
=1,…,m}, 其中
7.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步
骤S5中XGBoost算法定义
为第i个样本在第t次迭代的预测值, T为叶子节点的数量, 损
失函数则为:权 利 要 求 书 1/2 页
2
CN 115482039 A
2其中,
ft(xi)表示残差, Ω(ft)表示正则化; 然后使用二阶泰勒展
开式将损失函数展开:
其中,
和
分别为一阶导数和二
阶导数; 常数项l(yi,pred(t‑1))可以被简化 为:
通过计算可以得 出最优权 重:
另外, 分裂候选集可通过以下公式计算:
当使用XGBoost训练预测模型后, 对生成的每颗分类回归树(CART)叶子节点编号进行
one‑hot编码处 理, 并导出与原 始离散特征处理后的one‑hot向量拼接:
e=[e1,e2,..., ed, eDis]
其中, d为 生成的CART数量, eDis即为原始离散特征处理后的one‑hot向量;
将处理后的客户数据输入MLP, 激活函数使用Elu函数:
其中, α为超参数; 相比于Sigmoid函数与Relu函数, Elu函数可以有效地防止梯度消失
并增加负值信息; 在输出层, 只有一个神经 元, 并使用Sigmo id函数:
该函数可以使输出值介于0到1之间, 当输出值大于或等于0.5时, 则意味该客户是潜在
流失客户, 否则即为 正常客户。权 利 要 求 书 2/2 页
3
CN 115482039 A
3
专利 一种基于XGBoost与MLP的客户流失预测方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 15:36:38上传分享