专利基于大数据聚类技术的电力客户标签生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111614781.X (22)申请日 2021.12.27 (71)申请人国网河南省电力公司郑州供电公司地址 450000 河南省郑州市淮河西路19号申请人河南甘能信息科技有限公司　郑州大学　国家电网有限公司 (72)发明人燕跃豪　鲍薇　王莹　师杨　王权　苏幸红　栗鹏　刘晓辉　汪垚鹞　 (74)专利代理机构郑州金成知识产权事务所 (普通合伙) 41121 专利代理师郭乃凤 (51)Int.Cl. G06K 9/62(2022.01) G06Q 30/02(2012.01) G06Q 50/06(2012.01) (54)发明名称基于大数据聚类技术的电力客户标签生成方法 (57)摘要本发明公开了一种基于大数据聚类技术的电力客户标签生成方法，包括基于改进K ‑means 聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签，利用改进的K‑means聚类算法，对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析，将复杂信息加工过程透明化，形成简单的基本行为标签，经过K ‑means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签，建立电力客户标签库；电力企业利用客户标签生成客户画像，采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型，生成客户行为预测标签。电力企业可利用客户标签生成客户画像，客户精益管理，实现智能营销，对电力企业发展具有重大意义。权利要求书4页说明书9页附图4页 CN 114444573 A 2022.05.06 CN 114444573 A 1.一种基于大数据聚类技术的电力客户标签生成方法，包括基于改进K ‑means聚类的电力客户行为标签生成和基于梯度提升树和机器学习的电力客户行为预测标签，其特征在于：利用改进的K ‑means聚类算法，对电力客户服务呼叫中心、营销系统获得的客户数据进行统计、分析，将复杂信息加工过程透明化，形成简单的基本行为标签，经过K ‑means聚类分析、分类分析、归类分析和回归分析挖掘出数据中的复杂标签，而建立电力客户标签库；电力企业利用客户标签生成客户画像，采用梯度提升树算法和机器学习相结合的方法来构建行为预测模型。 2.根据权利要求1所述的基于大数据聚类技术的电力客户标签生成方法，其特征在于：所述的基于改进K ‑means聚类的电力客户行为标签生成，包括以下步骤： A、数据处理： (1)数据收集：收集电力客户服务呼叫中心、营销系统提供的客户用电信息档案、用电信息采集系统的数据，以及客户缴费渠道、气象信息和节假日信息； (2)数据核对：在完成数据收集后，进行数据核对，数据核对就是对不同的数据属性进行统一规划，选取有效且合理的关联字段，删除重复、无意义字段，明确数据的变量属性； (3)数据清洗：针对数据异常值，采用箱线图法对数据的异常值进行处理：先根据数据计算出整体的中位数Z、上四分位数A1以及下四分位数A2，然后计算四分位数差值B，即上四分位数与下四分位数的差B＝(A1‑A2)，根据上四分位数与下四分位数来绘制箱线图的上下限，在中位数的位置绘制中位数线；在上下四分位数的1.5倍之内的数据定义为异常值，记为温和异常值；在上下四分位数的3倍之外的数据定义为极端异常值； B、建立客户标签库：客户标签库包含三类要素，即客户基础属性标签、客户行为描述标签和客户行为预测标签，客户标签属性系统的构建流程如下：标签创建：收集并分析电力业务需求，提取合理的标签；。标签设计：结合电力行业的实际情况，标签分类规则和属性定义形成初始标签。分别设计标识类、命名类、连续类、曲线类数据类型，以对规律不明显、复合型数据采用数据挖掘的方式进行标签化处理；标签规则：覆盖率、准确性，用于评估标签规则定义和属性名称的合理性；标签更新：根据标签评估结果更新标签规则定义和属性名称，删除过时的标签并添加新标签；客户基础属性标签和行为描述标签的构建：电力企业的数据多为数值型数据，依据一定的规则和已有多种聚类算法将数值属性数据进行离散化，划分成几个易于理解的语义标签层级，把定量数据转化为定性行为语义标签T， T是一个三元组，定义如下： T＝<t,N,n> 式中， t为标签形成时间； N为标签名； n为行为状态，行为语义标签T表示了客户某个时刻发生了什么业务行为以及行为状态；权　利　要　求　书 1/4 页 2 CN 114444573 A 2行为描述标签体现客户行为的时间特征、行为偏好，每个行为标签代表的行为特征用频次、平均值、覆盖率、偏离度、平均时间间隔、周期性及时段偏好特征来表示；覆盖率表示某个时间段内该业务行为出现的次数占同类业务行为出现次数总和的比重；行为出现平均时间间隔即行为标签出现时间间隔的平均值；偏离度即行为标签出现的时间间隔的标准差，体现客户产生某种行为的时间均匀程度，偏离度越低，则该行为是一种周期性行为；周期性用来衡量客户某行为是否具有周期性；时段偏好特征表示客户行为产生的时间段偏好；以误差平方和为基础，得到误差降低系数指标，并将其与轮廓系数相结合，构建聚合回报指标，结合聚类的集聚度和分离度，实现类别数k的自动确定；首先，误差平方和的定义如下：式中： ISSE为误差平方和； ci为第i个类别； x为ci中的样本点； mi为ci的质心，即所有样本的均值；当k值小于最佳聚类数时， k值的增加会增加每个簇的集聚程度，故SSE值的下降幅度会陡增，而当k值达到最佳聚类数时，再增加k值所得到的集聚程度回报会迅速变小， SSE值下降幅度会骤减；为量化集聚程度回报大小，定义误差降低系数βSSE为针对样本点xi，假设其被聚类到簇A，则其轮廓系数如下：式中： ISC为轮廓系数； a(xi)为样本xi到A其他样本点的平均欧氏距离；对于簇B而言，令D (xi， B)为样本xi与簇B中所有样本的平均欧氏距离，则b(xi)＝minB≠AD(xi,B),即为样本xi到其他簇的平均距离的最小值；求出所有样本的轮廓系数后取平均值即可得到样本集的平均轮廓系数：式中：为平均轮廓系数； C为总样本集； n 为总样本数；误差降低系数反映的是簇内集聚度，平均轮廓系数则体现了簇间分离度，因此，综合两个系数定义了聚合回报指标IR2：给定一个最大聚类数kmax，取[0,2kmax]的范围内每个整数作为聚类数，分别进行一次聚类，当聚合回报值最大时，聚类结果最优，通过定义聚合回报指标，实现最佳聚类数k值的自权　利　要　求　书 2/4 页 3 CN 114444573 A 3

专利 基于大数据聚类技术的电力客户标签生成方法

专利基于大数据聚类技术的电力客户标签生成方法