(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111516278.0
(22)申请日 2021.12.08
(71)申请人 金瓜子科技发展 (北京) 有限公司
地址 100016 北京市朝阳区将台路898创新
空间A04
(72)发明人 李朝阳 陈超敏 魏旋 陈丽
(74)专利代理 机构 北京集佳知识产权代理有限
公司 11227
代理人 刘珂
(51)Int.Cl.
G06Q 30/02(2012.01)
G06N 20/00(2019.01)
G06F 16/903(2019.01)
(54)发明名称
一种数据分项量 化的方法、 装置和电子设备
(57)摘要
本发明涉及一种数据分项量化的方法,包
括: 从数据库中提取特征量化参数和量值参数;
建立回归模型, 并对所述回归模型进行训练; 其
中, 所述训练 中将特征量化参数作为xn输入回归
模型, 量值参数作为y输入回归模型; 基于训练后
的回归模型, 获得bn作为特征权重系数; 生成并
向用户端发送分项量化信息, 所述分项量化信息
中包括基于所述特征量化参数和特征权重系数
得到的量值差异数据。 本发明同时还 涉及一种回
归模型的建立和训练方法, 及实施上述各方法的
设备和电子装置。 本发明的技术方案能够直观的
呈现各特征数据对量值数据的影 响, 同时避免过
拟合造成的结果 误差。
权利要求书2页 说明书8页 附图2页
CN 114240488 A
2022.03.25
CN 114240488 A
1.一种回归 模型的建立和训练方法, 其特 征在于, 包括:
建立回归 模型:
y=b0+b1*x1+ ……+bn*xn;
将所述回归模型中的xn分箱得到xn_cut分段,将所述xn与xn_cut分段交互进行拟合训
练, 得到系数函数:
bn=fn(xn);
将所述系数函数与xn相乘的结果输入所述回归 模型中并进行训练。
2.根据权利 要求1所述的回归模型的建立和训练方法, 其特征在于, 将所述xn与xn_cut
分段交互进行拟合训练以得到系数函数的步骤 包括:
求出每个xn_cut分段中的平均值xn1,xn2, ……xnm;
根据点(xn1,bn1),(xn2,bn2) ……(xnm,bnm)绘制散点图;
通过数据拟合得 出系数函数bn =fn(xn)。
3.根据权利 要求1或2所述的回归模型的建立和训练方法, 其特征在于, 将所述xn与xn_
cut分段交 互进行拟合训练以得到系数函数的步骤 还包括:
从xn与对应的bn的映射表中得 出系数函数。
4.根据权利要求1所述的回归模型的建立和训练方法, 其特征在于, 能够将等深分箱
法、 等宽分箱法、 最小熵法和用户自定义区间法用于分箱。
5.一种数据分项量 化的方法,其特 征在于, 包括:
从数据库中提取 特征量化参数和量 值参数;
根据权利要求1至4中任一项所述的回归模型的建立和训练方法, 建立回归模型, 并对
所述回归 模型进行训练;
其中, 所述训练中将特征量化参数作为xn输入回归模型, 量值参数作为y输入回归模
型;
基于训练后的回归 模型, 获得bn作为特 征权重系数;
生成并向用户端发送分项量化信 息, 所述分项量化信 息中包括基于所述特征量化参数
和特征权重系数得到的量 值差异数据。
6.根据权利要求5所述的数据分项量化的方法,其特征在于, 所述从数据库中提取特征
量化参数和量 值参数, 具体包括:
在数据库中选取目标数据和基准数据, 将目标数据和基准数据中量值数据的差值作为
所述量值参数, 将目标数据和基准数据中相同特征的特征量化数据的差值作为特征量化参
数。
7.根据权利要求6所述的数据分项量化的方法,其特征在于, 所述分项量化信 息中具体
包括:
目标数据与基准数据中的量 值数据差值;
目标数据与基准数据中相同特 征的特征量化数据差值;
所述特征量化数据差值形成的量 值差异数据。
8.一种回归 模型的建立和训练装置, 其特 征在于, 包括:
模型建立模块, 用于建立回归 模型:
y=b0+b1*x1+ ……+bn*xn;权 利 要 求 书 1/2 页
2
CN 114240488 A
2模型训练模块, 用于将所述回归模型中的xn分箱得到xn_cut分段,将所述xn与xn_cut
分段交互进行拟合训练, 得到系数函数:
bn=fn(xn);
将所述系数函数与xn相乘的结果输入所述回归 模型中并进行训练。
9.根据权利要求8所述的回归模型的建立和训练装置, 其特征在于, 所述模型训练模块
用于:
求出每个xn_cut分段中的平均值xn1,xn2, ……xnm;
根据点(xn1,bn1),(xn2,bn2) ……(xnm,bnm)绘制散点图;
通过数据拟合得 出系数函数bn =fn(xn)。
10.根据权利要求8 或9所述的回归模型的建立和训练装置, 其特征在于, 所述模型训练
模块用于:
从xn与对应的bn的映射表中得 出系数函数。
11.根据权利要求8所述的回归模型的建立和训练装置, 其特征在于, 所述模型训练模
块用于将等深分箱法、 等宽分箱法、 最小熵法和用户自定义区间法用于分箱。
12.一种数据分项量 化的装置,其特 征在于, 包括:
参数提取模块, 用于从数据库中提取 特征量化参数和量 值参数;
如权利要求8所述的回归 模型的建立和训练装置;
权重系数模块, 用于将特征量化参数作为xn输入回归模型, 量值参数作为y输入回归模
型, 并从回归 模型中获得bn作为特 征权重系数;
信息生成模块, 用于生成并向用户端发送分项量化信息, 所述分项量化信息中包括基
于所述特 征量化参数和特 征权重系数得到的量 值差异数据。
13.根据权利要求12所述的数据分项量化的装置,其特征在于, 所述参数提取模块用
于: 在数据库中选取目标数据和基准数据, 将目标数据和基准数据中量值数据的差值作为
所述量值参数, 将目标数据和基准数据中相同特征的特征量化数据的差值作为特征量化参
数。
14.根据权利要求13所述的数据分项量化的装置,其特征在于, 所述信 息生成模块用于
生成包括: 目标数据与基准数据中的量值数据差值、 目标数据与基准数据中相同特征 的特
征量化数据差值、 所述特 征量化数据差值形成的量 值差异数据的分项量 化信息。
15.一种电子设备, 包括总 线、 收发器、 存储器、 处理器及存储在所述存储器上并可在所
述处理器上运行的计算机程序, 所述收发器、 所述存储器和所述处理器通过所述总线相连,
其特征在于, 所述计算机程序被所述处理器执行时实现如权利要求5至7中任一项 所述的数
据分项量 化的方法中的步骤。
16.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现如权利要求5 至7中任一项所述的数据分项量 化的方法中的步骤。权 利 要 求 书 2/2 页
3
CN 114240488 A
3
专利 一种数据分项量化的方法、装置和电子设备
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:20:09上传分享