专利基于用户画像的互联网卡用户流失预测方法及系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111298139.5 (22)申请日 2021.11.04 (71)申请人中南大学地址 410083 湖南省长沙市麓山南路932号 (72)发明人吕丰　钱凯　吴帆　任炬　张尧学　 (74)专利代理机构长沙朕扬知识产权代理事务所(普通合伙) 43213 代理人邓宇 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 111/08(2020.01) (54)发明名称基于用户画像的互联网卡用户流失预测方法及系统 (57)摘要本发明公开了基于用户画像的互联网卡用户流失预测方法及系统，通过分析互联网卡用户与流失相关的身份特性以及行为特性，确定互联网卡用户的关键画像数据维度以及关键时序行为数据维度；关键画像数据维度包括表征互联网卡用户行为的不确定性和活跃度的活跃熵，关键时序行为数据维度包括表征互联网卡用户的异常行为的行为异常天数；从历史数据中获取不同用户对应维度的关键画像数据以及不同时期的关键时序行为数据构建训练数据集，并使用训练数据集训练构建的深度学习模型，再使用训练好的深度学习模型预测用户流失。本发明在选取训练数据的特征维度时，新增用户的活跃熵和行为异常天数来反映不同用户的流失行为规律，使得训练得到深度学习模型预测精度更高。权利要求书4页说明书12页附图3页 CN 113962160 A 2022.01.21 CN 113962160 A 1.一种基于用户画像的互联网卡用户流失预测方法，其特征在于，包括以下步骤：分析互联网卡用户与流失相关的身份特性以及行为特性，确定互联网卡用户的关键画像数据维度以及关键时序行为数据维度；其中，所述关键画像数据维度包括表征互联网卡用户行为的不确定性和活跃度的活跃熵，所述关键时序行为数据维度包括表征互联网卡用户的异常行为的行为异常天数；从历史数据中获取不同用户对应维度的关键画像数据以及不同时期的关键时序行为数据构建训练数据集，并对所述训练数据集中的训练数据对应的用户流失类别进行标注；构建深度学习模型，并使用训练数据集中标注好的训练数据训练所述深度学习模型，得到训练好的深度学习模型；获取待预测用户对应维度的关键画像数据以及关键时序行为数据，将待预测用户对应维度的关键画像数据以及关键时序行为数据输入至训练好的深度学习模型中，得到待预测用户的流失类别。 2.根据权利要求1所述的基于用户画像的互联网卡用户流失预测方法，其特征在于，所述关键画像数据维度包括：性别、年龄、移动终端机型、移动终端价格、移动终端使用时长、余额、套餐ID、套餐档次、第二卡槽归属运营商、在网月份、近3个月单停次数、近3个月双停次数、基于月上行流量的活跃熵、基于月下行流量的活跃熵、基于月上网时间的活跃熵以及基于月上网记录条数的活跃熵；所述关键时序行为数据维度包括：日下行流量和、日上行流量和、日上网时间和、日上网记录条数和、每日是否流量异常、日主叫通话次数、日主叫通话时长、日主叫号码个数、日被叫通话次数、日被叫通话时长、日被叫号码个数以及日通话所连基站数。 3.根据权利要求2所述的基于用户画像的互联网卡用户流失预测方法，其特征在于，所述基于月上行流量的活跃熵、基于月下行流量的活跃熵、基于月上网时间的活跃熵以及基于月上网记录条数的活跃熵的获取，通过以下步骤实现：对于月上行流量、月下行流量、月上网时间以及月上网记录条数中任一维度的数据，均执行以下步骤：将所述维度的数据转换成时序行为序列 =[ , ,…, ,…, ]，其中， d表示当月的天数，表示第i天用户关于所述维度数据的统计值；将所述维度数据的时序行为序列分成k个等宽的桶，并根据以下公式计算出所述维度数据的活跃熵：其中，表示所述维度数据的时序行为序列的取值落在第i个桶的比例， k表示桶的个数，表示所述维度数据的时序行为序列的长度，为指示函数，当时 =1,否则 = 0。 4.根据权利要求2所述的基于用户画像的互联网卡用户流失预测方法，其特征在于，每日是否流量异常的判断，通过以下步骤实现：权　利　要　求　书 1/4 页 2 CN 113962160 A 2对于月上行流量、月下行流量、月上网时间以及月上网记录条数中任一维度的数据，均执行以下步骤：将所述维度的数据转换成时序行为序列 =[ , ,…, ,…, ]，其中， n表示当月的天数，表示第i天用户关于所述维度数据的统计值；计算所述时序行为序列的一阶前向差分序列 =[ , ,…, ,…, ]，其中，，表示所述一阶前向差分序列第i个差分值；对于所述一阶前向差分序列中的任意个差分值，判断所述是否大于 +1.5IQR或小于 ‑1.5IQR，若所述大于 +1.5IQR或小于 ‑1.5IQR，则判断对应的天数存在流量异常，其中，为所述一阶前向差分序列的上四分位数，为所述一阶前向差分序列下四分位数， I QR是四分位间距，为与之差。 5.根据权利要求2所述的基于用户画像的互联网卡用户流失预测方法，其特征在于，所述深度学习模型为基于多头自注意力机制的深度学习模型，包括特征提取层、嵌入层、注意力层、预分类层以及分类器，所述嵌入层、注意力层、预分类层以及分类器依次连接，所述分类器还与特征提取层连接；所述特征提取层用于从输入的关键画像数据中提取降维的用户画像关键特征矩阵，并将所述关键特征矩阵输出给分类器；所述嵌入层用于将输入的关键时序行为数据及其对应的类别标记转化包含块嵌入向量、类别嵌入向量以及位置嵌入向量的嵌入特征块，并将所述嵌入特征块输出给注意力层；所述类别嵌入向量用于学习并标记各个块嵌入向量的目标类别；所述位置嵌入向量用于标记各个块嵌入向量之间的位置关系；所述注意力层用于提取所述嵌入特征块的各个块嵌入向量的目标类别，并加上所述位置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相似性计算，得到所述嵌入特征块的类别嵌入向量；并将所述嵌入特征块的类别嵌入向量输出给预分类层；所述预分类层用于对所述嵌入特征块的类别嵌入向量进行预分类，输出用户流失概率值给分类层；所述分类层用于根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用户的流失类别。 6.根据权利要求5所述的基于用户画像的互联网卡用户流失预测方法，其特征在于，所述关键时序行为数据以矩阵的形式输入到所述嵌入层，所述嵌入层将输入的关键时序行为数据及其对应的类别标记转化包含块嵌入向量、类别嵌入向量以及位置嵌入向量的嵌入特征块，包括以下步骤：设所述关键时序行为数据的矩阵形式为时序行为特征矩阵，其中， N为所述时序行为特征矩阵的特征维度， L为每个时间序列特征的长度；将所述时序行为特征矩阵权　利　要　求　书 2/4 页 3 CN 113962160 A 3

专利 基于用户画像的互联网卡用户流失预测方法及系统

专利基于用户画像的互联网卡用户流失预测方法及系统