说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111614781.X (22)申请日 2021.12.27 (71)申请人 国网河南省电力公司郑州供电公司 地址 450000 河南省郑州市淮河西路19号 申请人 河南甘能信息科技有限公司   郑州大学 国家电网有限公司 (72)发明人 燕跃豪 鲍薇 王莹 师杨 王权  苏幸红 栗鹏 刘晓辉 汪垚鹞  (74)专利代理 机构 郑州金成知识产权事务所 (普通合伙) 41121 专利代理师 郭乃凤 (51)Int.Cl. G06K 9/62(2022.01) G06Q 30/02(2012.01) G06Q 50/06(2012.01) (54)发明名称 基于大数据聚类技术的电力客户标签生成 方法 (57)摘要 本发明公开了一种基于大数据聚类技术的 电力客户标签生成方法, 包括基于改进K ‑means 聚类的电力客户行为标签生成和基于梯度提升 树和机器学习的电力客户行为预测标签, 利用改 进的K‑means聚类算法, 对电力客户服务呼叫中 心、 营销系统获得的客户数据进行统计、 分析, 将 复杂信息加工过程透明化, 形成简单的基本行为 标签, 经过K ‑means聚类分析、 分类分析、 归类分 析和回归分析挖掘出数据中的复杂标签, 建立电 力客户标签库; 电力企业利用客户标签生成客户 画像, 采用梯度提升树算法和机器学习相结合的 方法来构建行为预测模型, 生 成客户行为预测标 签。 电力企业可利用客户标签生成客户画像, 客 户精益管理, 实现智能营销, 对电力企业发展具 有重大意 义。 权利要求书4页 说明书9页 附图4页 CN 114444573 A 2022.05.06 CN 114444573 A 1.一种基于大数据 聚类技术的电力客户标签生成方法, 包括基于改进K ‑means聚类的 电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签, 其特征在 于: 利用改进的K ‑means聚类算法, 对电力客户服务呼叫中心、 营销系统获得的客户数据进 行统计、 分析, 将复杂信息加工过程透明化, 形成简单的基本行为标签, 经过K ‑means聚类分 析、 分类分析、 归类分析和回归分析挖掘出数据中的复杂标签, 而建立电力客户标签库; 电 力企业利用客户标签生成客户画像, 采用梯度提升树算法和机器学习相结合的方法来构建 行为预测模型。 2.根据权利要求1所述的基于大数据聚类技术的电力客户标签生成方法, 其特征在于: 所述的基于改进K ‑means聚类的电力客户行为标签生成, 包括以下步骤: A、 数据处 理: (1)数据收集: 收集电力客户服务呼叫中心、 营销系统提供的客户用电信息档案、 用电信息采集系统 的数据, 以及客户缴费渠道、 气象信息和节假日信息; (2)数据核对: 在完成数据收集后, 进行数据核对, 数据核对就是对不同的数据属性进行统一规划, 选 取有效且合理的关联字段, 删除重复、 无意 义字段, 明确数据的变量属性; (3)数据清洗: 针对数据异常值, 采用箱线图法对数据的异常值进行处理: 先根据数据计算出整体的 中位数Z、 上四分位数A1以及下四分位数A2, 然后计算 四分位数差值B, 即上四分位数与 下四 分位数的差B=(A1‑A2), 根据上四分位 数与下四分位数来绘制箱 线图的上下限, 在中位 数的 位置绘制中位数线; 在上下四分位数的1.5倍之内的数据定义为异常值, 记为温和异常值; 在上下四分位数的3倍之外的数据定义 为极端异常值; B、 建立客户标签库: 客户标签库包含三类要素, 即客户基础属性标签、 客户行为描述标签和客户行为预测 标签, 客户标签属性系统的构建流 程如下: 标签创建: 收集并分析电力业 务需求, 提取合理的标签; 。 标签设计: 结合电力行业的实际情况, 标签分类规则和属性定义形成初始标签。 分别设 计标识类、 命名类、 连续类、 曲线类数据类型, 以对规律不明显、 复合型数据采用数据挖掘的 方式进行 标签化处 理; 标签规则: 覆盖率、 准确性, 用于 评估标签规则定义和 属性名称的合理性; 标签更新: 根据标签评估结果更新标签规则定义和属性名称, 删除过时的标签并添加 新标签; 客户基础属性标签和行为描述标签的构建: 电力企业的数据多为数值型数据, 依据一定的规则和已有多种聚类算法将数值属性数 据进行离散化, 划分成几个易于理解的语义标签层级, 把定量数据转化为定性行为语义标 签T, T是一个三元组, 定义如下: T=<t,N,n> 式中, t为标签形成时间; N为标签名; n为行为状态, 行为语义标签T表示了客户某个时 刻发生了什么业 务行为以及行为状态;权 利 要 求 书 1/4 页 2 CN 114444573 A 2行为描述标签体现客户行为的时间特征、 行为偏好, 每个行为标签代表的行为特征用 频次、 平均值、 覆盖率、 偏离度、 平均时间间隔、 周期性及时段偏好特征来表示; 覆盖率表示 某个时间段内该业务行为出现的次数占同类业务行为出现次数总和的比重; 行为出现平均 时间间隔即行为标签出现时间间隔的平均值; 偏离度即行为标签出现的时间间隔的标准 差, 体现客户产生某种 行为的时间均匀程度, 偏离度越低, 则该行为是一种周期性行为; 周 期性用来衡量客户某行为是否具有周期性; 时段偏好特征表示客户行为产生的时间段偏 好; 以误差平方和为基础, 得到误差降低系数指标, 并将其与轮廓系数相结合, 构建聚合 回 报指标, 结合聚类的集聚度和分离度, 实现类别数k的自动确定; 首先, 误差平方和的定义如下: 式中: ISSE为误差平方和; ci为第i个类别; x为ci中的样本点; mi为ci的质心, 即所有样本 的均值; 当k值小于最佳 聚类数时, k值的增加会增加每个簇的集聚程度, 故SSE值的下降幅度会 陡增, 而当k值达到最佳聚类数时, 再增加k值所得到的集聚程度回报会迅速变小, SSE值下 降幅度会 骤减; 为量化集聚程度回报大小, 定义 误差降低系数βSSE为 针对样本点xi, 假设其被聚类到 簇A, 则其轮廓系数如下: 式中: ISC为轮廓系数; a(xi)为样本xi到A其他样本点的平均欧氏距 离; 对于簇B而言, 令D (xi, B)为样本xi与簇B中所有样本的平均欧氏距离, 则b(xi)=minB≠AD(xi,B),即为样本xi到 其他簇的平均距离的最小值; 求出所有样本的轮廓系数后取平均值即可 得到样本集的平均轮廓系数: 式中: 为平均轮廓系数; C为总样本集; n 为总样本数; 误差降低系数反映的是簇内集聚度, 平均轮廓系数则体现了簇间分离度, 因此, 综合两 个系数定义了聚合回报指标IR2: 给定一个最大聚类数kmax, 取[0,2kmax]的范围内每个整数作为聚类数, 分别进行一次聚 类, 当聚合回报值最大时, 聚类结果最优, 通过定义聚合回报指标, 实现最佳聚类数k值的自权 利 要 求 书 2/4 页 3 CN 114444573 A 3

.PDF文档 专利 基于大数据聚类技术的电力客户标签生成方法

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于大数据聚类技术的电力客户标签生成方法 第 1 页 专利 基于大数据聚类技术的电力客户标签生成方法 第 2 页 专利 基于大数据聚类技术的电力客户标签生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 01:57:26上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。