说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111483322.2 (22)申请日 2021.12.07 (71)申请人 中信银行股份有限公司 地址 100020 北京市朝阳区光 华路10号院1 号楼6-30层、 32-42层 (72)发明人 余思豪 陈浩锐  (74)专利代理 机构 北京市兰台律师事务所 11354 代理人 于越 张峰 (51)Int.Cl. G06K 9/62(2022.01) G06N 3/08(2006.01) G06N 20/00(2019.01) G06Q 30/02(2012.01) (54)发明名称 一种基于决策树和二分K均值聚类的客户分 群方法及系统 (57)摘要 本发明涉及一种基于决策树和二分K均值聚 类的客户分群方法及系统, 包括客户特征处理及 分群算法实施, 通过客户的特征对客户进行分 群, 每个客群可以输出特征规则用以刻画, 特征 规则具有良好的解释性, 可结合业务经验进行调 整, 形成一个高精度且兼备解释性的客户分群规 则, 同时还保留了机器学习类方法的精准性并可 支持无监督学习与有监督学习两类训练方式。 基 于本发明方法输出的客户分群, 可用于对客户的 精准营销、 产品设计、 风险管理等方面, 提升企业 精细化经营水平, 同时也可为产品设计提供依 据。 权利要求书2页 说明书8页 附图2页 CN 114254697 A 2022.03.29 CN 114254697 A 1.一种基于决策树和二分K均值聚类的客户分群方法, 其特 征在于, 包括: S1、 客户特 征处理; S2、 分群算法实施; 其中, 步骤S1包括以下分步骤: S11、 填补客户特 征中的缺失值; S12、 将离 散型的客户特 征转换为连续型; 步骤S2包括以下分步骤: S21、 设置包 含若干客户分群初始簇的簇集 合以及最大簇数量; S22、 使用经过处理的客户特征进行分割, 获得包含若干对应客户特征的候选分裂点的 候选分裂点 集合; S23、 判断当前算法实施模式为无监督学习或有监督学习并选择对应判断结果的增益 计算依据, 对簇集合中的簇使用各自对应的候选分裂点进行分裂并分别进行增益计算, 获 得对应各候选 分裂点的增益率; 所述增益率为分裂后簇的损失与分裂前簇的损失之 间的比 值, 或, 所述增益率为分裂前簇的损失与分裂后簇的损失之间的差值; 所述簇的损失包括簇 内各点至 簇中心的欧式距离的总和; S24、 根据预设的限制条件 对各候选分裂点及对应的增益 率进行预剪枝; S25、 选择预剪枝后增益率最大的候选分裂点及对应的簇作为当前轮次分裂点和对象 簇, 获得分裂后的两个新簇; S26、 使用获得的两个新簇替换对象簇, 获得当前轮次簇集 合; S27、 对当前轮次簇集合重 复执行分步骤S22至S26, 直至当前轮次簇集合中的簇数量达 到最大簇数量, 输出分群结果。 2.如权利要求1所述的方法, 其特 征在于, 所述分步骤S27包括: 对当前轮次簇集合中的新簇执行分步骤S22至S24, 并使用新簇的增益率与当前轮次簇 集合中原有的簇的增益 率进行比较选择增益 率最大的候选分裂点。 3.如权利要求1所述的方法, 其特 征在于, 所述 填补客户特 征中的缺失值包括: 根据客户特 征对应的业 务逻辑填补缺失值; 和/或, 使用已有值的中位数或平均值 填补缺失值; 和/或, 使用与已有值的阈值存在显著差异的特异值 填补缺失值。 4.如权利要求1所述的方法, 其特征在于, 所述将离散型的客户特征转换为连续型包 括: 使用one‑hot编码将无序离 散特征转换为 二进制向量形式的连续型客户特 征; 使用有序编码映射将有序离 散特征转换为数值 顺序形式的连续型客户特 征。 5.如权利要求1所述的方法, 其特征在于, 所述使用经过处理的客户特征进行分割包 括: 对客户特 征的取值进行等分或遍历, 选择等 位数点作为 候选分裂点。 6.如权利要求1所述的方法, 其特征在于, 所述预设的限制条件包括以下一种或多种的 组合: 限定使用候选分裂点进行分裂后簇的规模不小于客群原始规模除以最大簇数量的三 倍;权 利 要 求 书 1/2 页 2 CN 114254697 A 2限定使用候选分裂点进行分裂后簇的增益 率不小于预设的最小增益 率; 限定使用候选分裂点进行分裂后簇的再分裂次数不大于预设的分裂次数阈值; 限定使用单一客户特征进行分割所产生的候选分裂点的再分裂次数不大于预设的分 裂次数阈值。 7.如权利要求6所述的方法, 其特 征在于, 所述分步骤S27还 包括: 在当前轮次簇集合中的簇数量达到最大簇数量之前, 若预剪枝后 不存在满足限制条件 的候选分裂点, 则停止分裂并输出分群结果。 8.一种基于决策树和二分K均值聚类的客户分群系统, 其特 征在于, 包括: 由特征值填补子模块和离散特征转换子模块组成的客户特征处理模块, 用于填补客户 特征中的缺失值以及将离 散型的客户特 征转换为连续型; 分群算法实施模块, 根据经过客户特征处理模块处理后的客户特征将客户分群, 输出 分群结果。 9.一种计算机可读存储介质, 其特征在于, 所述存储介质上存储有计算机程序, 所述计 算机程序被处 理器执行时实现权利要求1至7中任一项所述的方法。 10.一种电子设备, 其特 征在于, 包括处 理器和存 储器; 所述存储器, 用于存 储客户特 征; 所述处理器, 用于通过调用客户特 征, 执行权利要求1至7中任一项所述的方法。权 利 要 求 书 2/2 页 3 CN 114254697 A 3

.PDF文档 专利 一种基于决策树和二分K均值聚类的客户分群方法及系统

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于决策树和二分K均值聚类的客户分群方法及系统 第 1 页 专利 一种基于决策树和二分K均值聚类的客户分群方法及系统 第 2 页 专利 一种基于决策树和二分K均值聚类的客户分群方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:19:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。