说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202110456011.0 (22)申请日 2021.04.26 (71)申请人 中国移动通信集团江苏有限公司 地址 210029 江苏省南京市虎 踞路59号 申请人 中国移动通信集团有限公司 (72)发明人 陆天珺 赵雨 樊巧云 方海贝  李铮 谷建泽  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 肖艳 (51)Int.Cl. G06F 30/27(2020.01) G06K 9/62(2022.01) G06F 119/10(2020.01) (54)发明名称 一种Spark框架中的样本优化方法及装置 (57)摘要 本发明提供一种Spark框架中的样本优化方 法及装置, 包括: 获取预设场景中的建模数据样 本; 基于优 化的SMOTE算法和聚类算 法, 优化所述 建模数据样本, 得到样本优化结果。 本发明针对 大数据样本处理过程中存在的样本采样处理的 不足, 结合优化后的SMOTE算法以及聚类算法, 有 效处理样 本生成过程中的噪音问题, 使得样本扩 充更具有普适性, 适于在大 数据框架下实现。 权利要求书2页 说明书9页 附图2页 CN 115248991 A 2022.10.28 CN 115248991 A 1.一种Spark框架中的样本优化方法, 其特 征在于, 包括: 获取预设场景中的建模数据样本; 基于优化的SMOTE算法和聚类算法, 优化所述建模数据样本, 得到样本优化结果。 2.根据权利要求1所述的Spark框架中的样本优化方法, 其特征在于, 所述基于优化的 SMOTE算法和聚类算法, 优化所述建模数据样本, 得到样本优化结果, 具体包括: 采用最优聚类簇数确定算法, 对所述建模数据样本中的噪音样本进行去 除, 得到样本 聚类结果; 基于自适应随机码生成算法, 对所述样本聚类结果进行多样本混合平均处理, 得到所 述样本优化结果。 3.根据权利要求2所述的Spark框架中的样本优化方法, 其特征在于, 所述采用最优聚 类簇数确定算法, 对 所述建模数据样本中的噪音样本进 行去除, 得到样本聚类结果, 具体包 括: 确定聚类中的预设K值, 以及所述预设K值的区间范围; 获取每个簇 内各个数据点到质点的平均距离, 以及每个簇内具有样本标签的数据对应 的熵值; 基于所述平均距离、 所述平均距离的最小值、 所述熵值和所述熵值的最小值, 得到误差 函数; 获得所述误差函数与所述预设K值的关系曲线, 提取 所述关系曲线的拐点作为超参数; 基于所述关系曲线在所述超参数 下的取值进行样本聚类, 得到所述样本聚类结果。 4.根据权利要求2所述的Spark框架中的样本优化方法, 其特征在于, 所述基于自适应 随机码生成算法, 对 所述样本聚类结果进 行多样本 混合平均处理, 得到所述样本优化结果, 具体包括: 确定所述样本聚类结果中每 个样本的随机码; 对同一簇内具有相同随机码的样本进行平均采样生成新样本; 基于预设加盐迭代处 理算法对所述 新样本进行处 理, 获得所述样本优化结果。 5.根据权利要求4所述的Spark框架中的样本优化方法, 其特征在于, 所述确定所述样 本聚类结果中每 个样本的随机码, 具体包括: 对每个样本生成唯一 ID, 采用预设迭代次数对所述唯一 ID进行加盐, 得到加盐ID; 基于MD5加密算法对所述加盐ID进行编码, 提取前预设位数的数据除预设长度的余数 作为所述随机码。 6.根据权利要求4所述的Spark框架中的样本优化方法, 其特征在于, 所述基于预设加 盐迭代处 理算法对所述 新样本进行处 理, 获得所述样本优化结果, 具体包括: 采用所述新样本所在簇中ID最大值加预设迭代次数加盐进行处理, 生成新样本ID, 基 于所述新样本ID获得新随机码; 当样本新增量小于全量样本的预设比值时, 所述样本新增量进行自增长 。 7.根据权利要求2所述的Spark框架中的样本优化方法, 其特征在于, 所述基于优化的 SMOTE算法和聚类算法, 优化所述建模数据样本, 得到样本优化结果, 还 包括: 采用Spark  SQL语句实现样本数据的整合。 8.一种Spark框架中的样本优化装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 115248991 A 2获取模块, 用于获取 预设场景中的建模数据样本; 优化模块, 用于基于优化的SMOTE算法和聚类算法, 优化所述建模数据样本, 得到样本 优化结果。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求1至7任 一项所述Spark框架中的样本优化方法的步骤。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处理器执行时实现如权利要求 1至7任一项所述Spar k框架中的样本优化方法的步 骤。权 利 要 求 书 2/2 页 3 CN 115248991 A 3

.PDF文档 专利 一种Spark框架中的样本优化方法及装置

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种Spark框架中的样本优化方法及装置 第 1 页 专利 一种Spark框架中的样本优化方法及装置 第 2 页 专利 一种Spark框架中的样本优化方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:19:19上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。