(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211028188.1
(22)申请日 2022.08.25
(71)申请人 南京云柜网络科技有限公司
地址 210000 江苏省南京市雨 花台区凤台
南路138号3楼3 01室
(72)发明人 王彪 张友平
(74)专利代理 机构 成都顶峰专利事务所(普通
合伙) 51224
专利代理师 王袁辉
(51)Int.Cl.
G06F 16/22(2019.01)
G06F 16/2458(2019.01)
G06F 16/248(2019.01)
G06F 16/27(2019.01)
G06F 16/2453(2019.01)G06F 16/9535(2019.01)
G06F 40/289(2020.01)
G06F 40/216(2020.01)
G06Q 10/08(2012.01)
G06Q 30/06(2012.01)
(54)发明名称
快递用户的行为分析方法、 装置、 电子设备
及存储介质
(57)摘要
本发明公开了一种快递用户的行为分析方
法、 装置、 电子设备及存储介质, 一方面, 本发明
基于Hbase数据库和kudu数据库, 能够长期持久
的存储海量的快递数据和快递业务画 像, 且能够
实时响应对用户行为分析的查询请求, 具有较高
的可靠性, 同时, 还可以在业务量增加时快速扩
容, 具有良好的扩展性; 另一方面, 本发 明能够基
于用户的业务行为数据, 来生 成各个用户的快递
业务画像, 同时, 在接收到 行为分析请求时, 可读
取Hbase数据库的业务行为数据, 并生成行为统
计数据, 由此, 结合用户的快递业务画 像, 可实现
用户快递行为的分析, 得知用户的快递需求, 从
而能够为快递行业进行个性化服务提供数据支
撑。
权利要求书4页 说明书18页 附图4页
CN 115269610 A
2022.11.01
CN 115269610 A
1.一种快递用户的行为分析 方法, 其特 征在于, 包括:
获取各个用户在快递业务端进行业务操作时产生的业务行为数据, 并将所述各个用户
的业务行为数据存 储至Hbase数据库;
获取预设时间段内, 各个用户的每条业务行为数据对应的快递订单数据, 以作为各个
用户的行为分析 数据;
对所述各个用户的行为分析数据进行关键信 息提取处理, 以基于提取的关键信 息得到
所述各个用户的快递 业务数据;
基于各个用户的快递 业务数据, 生成所述各个用户的快递 业务标签;
根据各个用户的快递业务标签, 构建各个用户的快递业务画像, 并将各个用户的快递
业务画像存 储至kudu数据库中;
接收行为分析请求, 以基于所述行为分析请求, 在所述kudu数据库中, 匹配出目标用户
的快递业务画像, 以及在所述Hbase数据库中, 匹配出所述目标用户的业务行为数据, 其中,
所述目标用户为所述行为分析请求中待行为分析的用户;
基于所述目标用户的业 务行为数据, 生成所述目标用户的行为统计数据;
将所述目标用户的快递业务画像和行为统计数据进行可视化展示, 以完成对所述目标
用户的快递行为分析。
2.如权利要求1所述的方法, 其特征在于, 对所述各个用户的行为分析数据进行关键信
息提取处 理, 以基于提取的关键信息得到所述各个用户的快递 业务数据, 包括:
对于所述各个用户的每条行为分析数据, 对每条行为分析数据进行分词处理, 得到各
个用户的每条 行为分析 数据的分词集;
计算各个用户的每个分词集中各个词语的重要度因子值, 其中, 任一词语的重要度因
子值包括该任一词语的词频值、 词长值以及词性 值;
基于各个用户的每个分词集中各个词语的重要度因子值, 计算得到各个用户的每个分
词集中各个词语的权 重值;
根据各个用户的每个分词集中各个词语的权重值, 得到各个用户的每条行为分析数据
对应的第一关键词集;
基于各个用户的每条行为分析数据对应的第 一关键词集, 对各个用户的每条行为分析
数据进行词语组合, 得到各个用户的每条 行为分析 数据对应的第二关键词集;
合并各个用户的每条行为分析数据对应的第 一关键词集以及第 二关键词集, 得到各个
用户的每条 行为分析 数据的实际关键词集;
剔除各个用户的每个实际关键词集中的重复关键词, 以基于每个实际关键词集中剩余
的关键词, 得到各个用户的快递 业务数据。
3.如权利要求2所述的方法, 其特征在于, 基于各个用户的每条行为分析数据对应的第
一关键词集, 对各个用户的每条行为分析数据进行词语组合, 得到各个用户的每条行为分
析数据对应的第二关键词集, 包括:
对于任一用户的任一行为分析数据, 判断所述任一行为分析数据对应分词集中的第i
个词语是否属于所述第一关键词集, 其中, i从1开始;
若是, 判断第i ‑1个词语是否满足第一预设条件, 其中, 所述第一预设条件为第i ‑1个词
语存在于所述任一行为分析 数据对应的分词集中, 且不属于所述第一关键词集;权 利 要 求 书 1/4 页
2
CN 115269610 A
2若是, 则依次合并所述第i ‑1个词语与所述第i个词语, 得到第一组合词, 并判断所述第
一组合词是否符合词语组合 规则;
若所述第一组合词符合词语组合规则, 则将所述第一组合词作为第二候选关键词, 且
所述第二 候选关键词的权 重值为所述第i个词语的权 重值;
判断第i+1个词语是否满足第二预设条件, 其中, 所述第二预设条件为第i+1个词语存
在于所述任一行为分析 数据对应的分词集中, 且属于所述第一关键词集;
若满足所述第二预设条件, 则依次合并所述第i个词语与所述第i+1个词语, 得到第二
组合词, 并判断所述第二组合词是否符合所述词语组合 规则;
若所述第二组合词符合所述词语组合规则, 则将所述第 二组合词也作为第 二候选关键
词, 且第二组合词对应的第二候选 关键词的权重值为第i个词语与第i+1个词语的权重值之
和;
将i自加1, 并重新判断第i个词语是否在所述第一关键词集中, 以在i大于n时, 得到第
二候选关键词集, 其中, n 为所述任一行为分析 数据对应分词集中词语的总个数;
对所述第二候选关键词集进行关键词筛选, 筛选出存在子集关系的第二候选关键词,
并提取出作为子集的第二 候选关键词;
利用作为子集的第 二候选关键词以及筛选后的第 二候选关键词集, 组成所述任一用户
的任一行为分析 数据的第二关键词集。
4.如权利要求3所述的方法, 其特征在于, 若所述第 i个词语不属于所述第 一关键词集,
则所述方法还 包括:
判断所述第i ‑1个词语和所述第i+1个词语是否均属于所述第一关键词集, 且均存在于
任一行为分析 数据对应的分词集中;
若是, 则依次合并第i ‑1个词语、 第i个词语以及第i+1个词语, 得到第三组合词;
判断所述第三组合词是否符合所述词语组合 规则;
若是, 则将所述第三组合词也作为第 二候选关键词, 其中, 第三组合词对应的第 二候选
关键词的权 重值为第i‑1个词语与第i+1个词语的权 重值之和;
将i自加1, 并重新判断第i个词语是否在所述第一关键词集中, 以在i大于n时, 得到第
二候选关键词集, 其中, n 为所述任一行为分析 数据对应分词集中词语的总个数。
5.如权利要求3所述的方法, 其特征在于, 若所述第i ‑1个词语存在于所述任一行为分
析数据对应的分词集中, 且属于所述第一关键词集, 则所述方法还 包括:
判断所述第i+1个词语是否满足所述第二预设条件;
若是, 则依次合并第i ‑1个词语、 第i个词语以及第i+1个词语, 得到第四组合词;
判断所述第四组合词是否符合词语组合 规则;
若是, 则将所述第四组合词也作为第 二候选关键词, 其中, 第四组合词对应的第 二候选
关键词的权 重值为第i个词语与第i+1个词语的权 重值之和;
将i自加1, 并重新判断第i个词语是否在所述第一关键词集中, 以在i大于n时, 得到第
二候选关键词集, 其中, n 为所述任一行为分析 数据对应分词集中词语的总个数。
6.如权利要求1所述的方法, 其特征在于, 基于各个用户的快递业务数据, 生成所述各
个用户的快递 业务标签, 包括:
基于各个用户的快递业务数据, 得到各个用户的寄件业务数据以及 收件业务数据, 其权 利 要 求 书 2/4 页
3
CN 115269610 A
3
专利 快递用户的行为分析方法、装置、电子设备及存储介质
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-17 23:26:36上传分享