说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111659598.1 (22)申请日 2021.12.3 0 (71)申请人 中国农业银行股份有限公司 地址 100005 北京市东城区建国门内大街 69号 (72)发明人 吴振阳 孙岚子 任哲丰  (74)专利代理 机构 北京同立钧成知识产权代理 有限公司 1 1205 代理人 刘丹 黄健 (51)Int.Cl. G06K 9/62(2022.01) (54)发明名称 样本处理方法、 装置、 设备及存 储介质 (57)摘要 本申请提供一种样本处理方法、 装置、 设备 及存储介质, 对于存在样本不均衡问题的样本数 据集, 可以对其中占比较大的类别样本(即本申 请中的第一样本)进行进一步的聚类处理, 即将 占比较大的类别样本进一步分成由类似的样本 数据所组成的多个簇, 从而可以大大减少占比较 大的类别样 本的样本数量, 以保证样本数据集中 不同类别样本的数量比例为较小值, 从而, 通过 处理后的样 本数据集进行模型训练, 可以有助于 提高模型的准确性。 权利要求书2页 说明书10页 附图3页 CN 114330568 A 2022.04.12 CN 114330568 A 1.一种样本处 理方法, 其特 征在于, 包括: 从多个第一样本 中选择第 一数量的第 二样本, 并将所述第 一数量的第 二样本分别确定 为多个簇的初始质心; 从所述多个第 一样本中选择第 二数量的第 三样本, 并确定每个所述第 三样本到各所述 初始质心的距离, 根据所述距离, 从所述多个簇中确定各所述第三样 本对应的目标簇, 所述 第三样本为所述多个第一样本中除所述第二样本之外的样本; 根据所述目标簇的初始质心和所述距离, 对所述目标簇的初始质心进行更新, 得到新 的质心, 并重复执 行上述步骤, 直至确定出 所有第一样本对应的目标簇; 根据所述第一数量的新的质心, 确定所述多个第一样本对应的目标样本 。 2.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标簇的初始质心和所述距 离, 对所述目标簇的初始质心进行 更新, 得到新的质心, 包括: 确定所述第三样本的学习速率; 根据所述学习速率、 所述初始质心和所述距离, 对所述目标簇的初始质心进行更新, 得 到新的质心。 3.根据权利要求2所述的方法, 其特征在于, 所述根据所述学习速率、 所述初始质心和 所述距离, 对所述目标簇的初始质心进行 更新, 得到新的质心, 包括: 根据以下公式对所述目标簇的初始质心进行 更新, 得到新的质心: Ci+1=Ci+sgn[M‑Ci]α *sqrt(|M‑Ci|2) 其中, Ci+1表示更新后的新的质心, Ci表示更新前的质心, M ‑Ci表示第三样本到更新前的 质心的距离, α表示学习速率, sgn[ ]表示求正负计算, sqrt()表示开方计算, |  |2表示2范 数计算。 4.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述根据所述距离, 从所述多个 簇中确定所述第三样本对应的目标簇, 包括: 将所述第三样本到各所述初始质心的距离中, 距离最小的初始质心对应的簇确定为所 述目标簇 。 5.根据权利要求1 ‑3任一项所述的方法, 其特征在于, 所述根据 所述第一数量的新的质 心, 确定所述多个第一样本对应的目标样本, 包括: 将所述第一数量的新的质心, 确定为所述多个第一样本对应的目标样本 。 6.根据权利要求1 ‑3任一项所述的方法, 其特 征在于, 所述方法还 包括: 获取第三数量的第四样本, 所述第四样本与所述第一样本为 不同类别的样本; 根据所述第四样本和所述目标样本, 对初始模型进行训练, 得到目标模型。 7.根据权利要求6所述的方法, 其特征在于, 所述第 三数量和第 一数量之间满足如下公 式: 其中, k表示第一数量, d表示第三数量, r的取值范围为(0.0 5, 20]。 8.一种样本处 理装置, 其特 征在于, 包括: 第一选择模块, 用于从多个第一样本中选择第一数量的第二样本, 并将所述第一数量 的第二样本分别确定为多个簇的初始质心;权 利 要 求 书 1/2 页 2 CN 114330568 A 2第二选择模块, 用于从所述多个第一样本中选择第二数量的第三样本, 并确定每个所 述第三样本到各所述初始质心的距离, 根据所述距离, 从所述多个簇中确定各所述第三样 本对应的目标簇, 所述第三样本为所述多个第一样本中除所述第二样本之外的样本; 更新模块, 用于根据所述目标簇的初始质心和所述距离, 对所述目标簇的初始质心进 行更新, 得到新的质心, 并重复执 行上述步骤, 直至确定出 所有第一样本对应的目标簇; 确定模块, 用于根据所述第一数量的新的质心, 确定所述多个第一样本对应的目标样 本。 9.一种计算机设备, 其特 征在于, 包括存 储器, 处理器: 存储器, 用于存储计算机程序; 处理器, 用于读取所述存储器中的计算机程序并执行以 下操作: 从多个第一样本 中选择第 一数量的第 二样本, 并将所述第 一数量的第 二样本分别确定 为多个簇的初始质心; 从所述多个第 一样本中选择第 二数量的第 三样本, 并确定每个所述第 三样本到各所述 初始质心的距离, 根据所述距离, 从所述多个簇中确定各所述第三样 本对应的目标簇, 所述 第三样本为所述多个第一样本中除所述第二样本之外的样本; 根据所述目标簇的初始质心和所述距离, 对所述目标簇的初始质心进行更新, 得到新 的质心, 并重复执 行上述步骤, 直至确定出 所有第一样本对应的目标簇; 根据所述第一数量的新的质心, 确定所述多个第一样本对应的目标样本 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质中存储有计算机 执行指令, 所述计算机执行指令被处理器执行时用于实现如权利要求1 ‑7任一项所述的样 本处理方法。权 利 要 求 书 2/2 页 3 CN 114330568 A 3

.PDF文档 专利 样本处理方法、装置、设备及存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 样本处理方法、装置、设备及存储介质 第 1 页 专利 样本处理方法、装置、设备及存储介质 第 2 页 专利 样本处理方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:43:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。