(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111298139.5
(22)申请日 2021.11.04
(71)申请人 中南大学
地址 410083 湖南省长 沙市麓山 南路932号
(72)发明人 吕丰 钱凯 吴帆 任炬 张尧学
(74)专利代理 机构 长沙朕扬知识产权代理事务
所(普通合伙) 43213
代理人 邓宇
(51)Int.Cl.
G06F 30/27(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 111/08(2020.01)
(54)发明名称
基于用户画像的互联网卡用户流失预测方
法及系统
(57)摘要
本发明公开了基于用户画像的互联网卡用
户流失预测方法及系统, 通过分析互联网卡用户
与流失相关的身份特性以及行为特性, 确定互联
网卡用户的关键画像数据维度以及关键时序行
为数据维度; 关键画像数据维度包括表征互联网
卡用户行为的不确定性和活跃度的活跃熵, 关键
时序行为数据维度包括表征互联网卡用户的异
常行为的行为异常天数; 从历史数据中获取不同
用户对应维度的关键画像数据以及不同时期的
关键时序行为数据构建训练数据集, 并使用训练
数据集训练构建的深度学习模型, 再使用训练好
的深度学习模 型预测用户流失。 本发 明在选取训
练数据的特征 维度时, 新增用户的活跃熵和行为
异常天数来反映不同用户的流失行为规律, 使 得
训练得到深度学习模型 预测精度更高。
权利要求书4页 说明书12页 附图3页
CN 113962160 A
2022.01.21
CN 113962160 A
1.一种基于用户画像的互联网卡用户流失预测方法, 其特 征在于, 包括以下步骤:
分析互联网卡用户与流失相关的身份特性以及行为特性, 确定互联网卡用户的关键画
像数据维度以及关键时序行为数据维度; 其中, 所述关键画像数据维度包括表征互联网卡
用户行为的不确定性和活跃度的活跃熵, 所述关键时序行为数据维度包括表征互联网卡用
户的异常行为的行为异常天数;
从历史数据中获取不同用户对应维度的关键画像数据以及不同时期的关键时序行为
数据构建训练数据集, 并对所述训练数据集中的训练数据对应的用户流失类别进行标注;
构建深度学习模型, 并使用训练数据集中标注好的训练数据训练所述深度学习模型, 得到
训练好的深度学习模型;
获取待预测用户对应维度的关键画像数据以及 关键时序 行为数据, 将待预测用户对应
维度的关键画像数据以及关键时序行为数据输入至训练好的深度学习模型中, 得到待 预测
用户的流失类别。
2.根据权利要求1所述的基于用户画像的互联网卡用户流失预测方法, 其特征在于, 所
述关键画像数据维度包括: 性别、 年龄、 移动终端机型、 移动终端价格、 移动终端使用时长、
余额、 套餐ID、 套餐档次、 第二卡槽归属运营商、 在网月份、 近3个月单停次数、 近3个月双停
次数、 基于月上行流量的活跃熵、 基于月下行流量的活跃熵、 基于月上网时间的活跃熵以及
基于月上网记录条 数的活跃熵;
所述关键时序行为数据维度包括: 日下行流量和、 日上行流量和、 日上网时间和、 日上
网记录条数和、 每日是否流量异常、 日主叫通话次数、 日主叫通话时长、 日主叫号码 个数、 日
被叫通话次数、 日被叫 通话时长、 日被叫 号码个数以及日通 话所连基站数。
3.根据权利要求2所述的基于用户画像的互联网卡用户流失预测方法, 其特征在于, 所
述基于月上行流量的活跃熵、 基于月下行流量的活跃熵、 基于月上网时间的活跃熵以及基
于月上网记录条 数的活跃熵的获取, 通过以下步骤实现:
对于月上行流量、 月下行流量、 月上网时间以及月上网记录条数中任一维度的数据, 均
执行以下步骤:
将所述维度的数据转换成时序行为序列
=[
,
,…,
,…,
], 其中, d表示当月的天
数,
表示第i天用户关于所述维度数据的统计值;
将所述维度数据的时序行为序列
分成k个等宽的桶, 并根据以下公式计算出所述维度
数据的活跃熵:
其中,
表示所述维度数据的时序行为序列
的取值落在第i个桶的比例, k表示桶的个
数,
表示所述维度数据的时序行为序列
的长度,
为指示函数, 当
时
=1,否则
=
0。
4.根据权利要求2所述的基于用户画像的互联网卡用户流失预测方法, 其特征在于, 每
日是否流 量异常的判断, 通过以下步骤实现:权 利 要 求 书 1/4 页
2
CN 113962160 A
2对于月上行流量、 月下行流量、 月上网时间以及月上网记录条数中任一维度的数据, 均
执行以下步骤:
将所述维度的数据转换成时序行为序列
=[
,
,…,
,…,
], 其中, n表示当月的天
数,
表示第i天用户关于所述维度数据的统计值;
计算所述时序行为序列
的一阶前向差分序列
=[
,
,…,
,…,
], 其中,
,
表示所述 一阶前向差分序列
第i个差分值;
对于所述一阶前向差分序列
中的任意个差分值
, 判断所述
是否大于
+1.5IQR或
小于
‑1.5IQR, 若所述
大于
+1.5IQR或小于
‑1.5IQR, 则判断
对应的天数存在流量
异常,
其中,
为所述一阶前向差分序列
的上四分位数,
为所述一阶前向差分序列
下四
分位数, I QR是四分位间距, 为
与
之差。
5.根据权利要求2所述的基于用户画像的互联网卡用户流失预测方法, 其特征在于, 所
述深度学习模型为基于多头自注意力机制的深度学习模型, 包括特征提取层、 嵌入层、 注 意
力层、 预分类层以及分类器, 所述嵌入层、 注 意力层、 预分类层以及分类器依次连接, 所述分
类器还与特 征提取层连接;
所述特征提取层用于从输入的关键画像数据中提取降维的用户画像关键特征矩阵, 并
将所述关键特 征矩阵输出 给分类器;
所述嵌入层用于将输入的关键时序行为数据及其对应的类别标记转化包含块嵌入向
量、 类别嵌入向量以及位置嵌入向量的嵌入特征块, 并将所述嵌入特征块输出给注意力 层;
所述类别嵌入向量用于学习并标记各个块嵌入向量的目标类别; 所述位置嵌入向量用于标
记各个块嵌入向量之间的位置关系;
所述注意力层用于提取所述嵌入特征块的各个块嵌入向量的目标类别, 并加上所述位
置嵌入向量所标记的各个块嵌入向量之间的位置关系对提取的各个块嵌入向量进行自相
似性计算, 得到所述嵌入特征块的类别嵌入向量; 并将所述嵌入特征块的类别嵌入向量输
出给预分类层;
所述预分类层用于对所述嵌入特征块的类别嵌入向量进行预分类, 输出用户流失概率
值给分类层;
所述分类层用于根据用户画像的关键特征矩阵以及所述用户流失概率值确定所述用
户的流失类别。
6.根据权利要求5所述的基于用户画像的互联网卡用户流失预测方法, 其特征在于, 所
述关键时序行为数据以矩阵的形式输入到所述嵌入层, 所述嵌入层将输入的关键时序行为
数据及其对应的类别标记转化包含块嵌入向量、 类别嵌入向量以及位置嵌入向量的嵌入特
征块, 包括以下步骤:
设所述关键时序行为数据的矩阵形式为时序行为特征矩阵
, 其中, N为所述时序
行为特征矩阵的特征维度, L为每个时间序列特征的长度; 将所述时序行为特征矩阵
权 利 要 求 书 2/4 页
3
CN 113962160 A
3
专利 基于用户画像的互联网卡用户流失预测方法及系统
文档预览
中文文档
20 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 05:16:47上传分享