说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211156957.6 (22)申请日 2022.09.22 (71)申请人 中电科申泰信息科技有限公司 地址 214000 江苏省无锡市滨湖区绣溪路 50号2号楼6层 (72)发明人 唐琪 张昊 朱仪 蒋敏 范昌华  张取义  (74)专利代理 机构 无锡派尔特知识产权代理事 务所(普通 合伙) 32340 专利代理师 杨立秋 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种基于XGBoost与MLP的客户流失预测方 法 (57)摘要 本发明涉及一种基于XGBoost与MLP的客户 流失预测方法, 所述预测方法使用环 境在申威平 台上, 且能够改善客户流失预测系统的准确性以 及时效性, 所述预测方法分为两个阶段: 第一阶 段, 提取客户数据中的数值型特征, 使用XGBoo st 算法计算出叶子节点的编号, 并转换为one ‑hot 向量; 第二阶段, 使用MLP处理叶子节点的one ‑ hot向量和原始 离散特征转化的one ‑hot向量, 获 得预测结果。 与传统的客户流失预测算法相比, 该算法能够大幅提高预测准确率。 同时, 该方法 支持并行计算, 依靠申威CPU强大的并行计算能 力, 能大幅 改善时效性。 权利要求书2页 说明书6页 附图1页 CN 115482039 A 2022.12.16 CN 115482039 A 1.一种基于XGBoost与MLP的客户流失预测方法, 所述预测方法使用环境在申威平台 上, 且能够改善客户流失预测系统的准确性以及时效性, 其特 征在于, 包括如下步骤: 步骤S1: 收集相关的客户历史数据包括流失客户与非流失客户的多属性数据, 并打上 对应的标签以形成相应的训练数据; 步骤S2: 计算特征的方差, 然后排序并删除方差较低的特征, 可以提高预测准确度并降 低计算量; 步骤S3: 将数值型特征中缺失的数据 替换为该特征的平均 值, 再进行Z ‑Score归一化处 理; 步骤S4: 使用o ne‑hot编码处 理离散型特征, 整理预处 理后客户数据; 步骤S5: 使用XGBoost算法处理数值型特征, 将计算后获得的叶子节点的编号替代原有 的数值型特征, 然后将更新后的客户数据输入MLP, 构建损失函数, 使用梯度下降算法训练 预测模型; 步骤S6: 将训练好的预测模型部署在申威 服务器上, 计算出企业 客户的流失概 率。 2.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步 骤S1中标签以形成相应的客户数量为M特征数量为N的训练数据D={(xi,yi)|i=1,…,M}, 其中 客户标签yi={0,1}表示如果yi=0则客户为非流失客户, yi=1则客户 为流失客户; 另外 定义predi为客户流失预测系统的预测值。 3.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步 骤S2方差的计算公式如下: 对N个特征分别计算方差后, 根据方差将特 征从高到低排序, 并删除方差低的特 征。 4.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步 骤S3中归一 化处理公式, 如下: 5.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步 骤S4中one ‑hot编码将输入样 本处理后转变为高维的稀 疏向量, 其中的输入样 本为[Gender =Male,We ekday=Mo nday,Count ry=China]: 6.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步 骤S4中客户数据处理后整理成相应的客户数量为m, 特征数量为n的训练数据D={(xi,yi)|i =1,…,m}, 其中 7.根据权利要求1所述的基于XGBoost与MLP的客户流失预测方法, 其特征在于: 所述步 骤S5中XGBoost算法定义 为第i个样本在第t次迭代的预测值, T为叶子节点的数量, 损 失函数则为:权 利 要 求 书 1/2 页 2 CN 115482039 A 2其中, ft(xi)表示残差, Ω(ft)表示正则化; 然后使用二阶泰勒展 开式将损失函数展开: 其中, 和 分别为一阶导数和二 阶导数; 常数项l(yi,pred(t‑1))可以被简化 为: 通过计算可以得 出最优权 重: 另外, 分裂候选集可通过以下公式计算: 当使用XGBoost训练预测模型后, 对生成的每颗分类回归树(CART)叶子节点编号进行 one‑hot编码处 理, 并导出与原 始离散特征处理后的one‑hot向量拼接: e=[e1,e2,..., ed, eDis] 其中, d为 生成的CART数量, eDis即为原始离散特征处理后的one‑hot向量; 将处理后的客户数据输入MLP, 激活函数使用Elu函数: 其中, α为超参数; 相比于Sigmoid函数与Relu函数, Elu函数可以有效地防止梯度消失 并增加负值信息; 在输出层, 只有一个神经 元, 并使用Sigmo id函数: 该函数可以使输出值介于0到1之间, 当输出值大于或等于0.5时, 则意味该客户是潜在 流失客户, 否则即为 正常客户。权 利 要 求 书 2/2 页 3 CN 115482039 A 3

.PDF文档 专利 一种基于XGBoost与MLP的客户流失预测方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于XGBoost与MLP的客户流失预测方法 第 1 页 专利 一种基于XGBoost与MLP的客户流失预测方法 第 2 页 专利 一种基于XGBoost与MLP的客户流失预测方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 15:36:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。