专利一种基于生成对抗学习填补金融数据的方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210502063.1 (22)申请日 2022.05.10 (71)申请人浙江财经大学地址 310012 浙江省杭州市西湖区文一西路83号 (72)发明人张永全　曹昊　张宇权　齐少春　 (74)专利代理机构杭州兴知捷专利代理事务所 (特殊普通合伙) 33338 专利代理师林振兴 (51)Int.Cl. G06Q 40/02(2012.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于生成对抗学习填补金融数据的方法 (57)摘要本发明涉及一种银行个人信贷领域数据解决不平衡的技术，具体涉及一种基于生成对抗学习填补金融数据的方法，属于金融领域。首先利用生成对抗学习中的数据生成器，采用变卷积核的反卷积算法，随机生成数据特征，得到未经辨别的数据，然后利用生成对抗学习的判别器，初步学习真实数据的数据分布，接着判别器对生成器的生成数据进行判断，根据判断结果生成器对于自己生成数据进行改正，同时判别器更新自己的算法，最后可以生成与真实数据类似的银行个人信贷数据。本发明能避免传统方法解决不平衡问题仅仅采用的过采样方法，并对金银行个人信贷违约判断领域得到较好的结果。权利要求书3页说明书5页附图1页 CN 114881762 A 2022.08.09 CN 114881762 A 1.一种基于生成对抗学习填补金融数据的方法，其特征在于：该方法包括如下步骤：步骤一：数据分类和数据预处理问题 (1.1)将N个区域的银行个人信贷数据作为输入，首先判断数据是哪一类，即判断是违约数据还非违约数据，并确定是否为数据不平衡问题； (1.2)对于不平衡的数据，或者需要操作的数据进行正则化操作；步骤二：生成器数据生成 (2.1)对于第一步处理好的数据，将数据进行维度拓展； (2.2)对于生成器的搭建过程，确定数据的基础框架，首先确定数据来源维度； (2.3)根据(2.2)的维度，进行数据生成器的模型搭建，采用变卷积核反卷积操作，做批量正则化和激活函数； (2.4)对于数据生成器的神经网络的块数确定的设置，设置为(2.1)中数据维度的N 值；步骤三：人脸识别分类 (3.1)采用一个二维的卷积操作，将数据放大到更高的维数，并进行标准化和激活函数；步骤四：生成器和辨别器的训练 (4.1)进行真实数据与生成数据的加权组合，组合进入训练； (4.2)为每一次训练设置梯度惩罚； (4.3)加入含有梯度惩罚项的损失函数进行训练； (4.4)多次训练得到最终的生成数据。 2.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：所述的步骤一(1.2)中：对数据进行标准化，具体操作步骤为：其中， xi为每一项数据， μ为每一项数据的均值， d为方差。 3.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：所述的步骤二(2.1)中：具体的维度拓展为(b,c,h,w)，其中b 为数据的总条数， c默认为1， h默认为1， w为数据的具体维度。 4.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：所述的步骤二(2.2)中：数据维度可以分为类似用户个人信贷历史，个人经济状况，个人用户行为等各个维度等，设置为维度为N，同时统计每一个维度中各项数据的小维度数量，计数为n。 5.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：所述的步骤二(2.3)中：采用反卷积思想，其公式满足： Hout＝(Hin‑1)*stride[0]‑2*padding[0]+Kernel_size[0]+output_pad ding[0] Wout＝(Win‑1)*stride[1]‑2*padding[1]+Kernel_size[1]+output_pad ding[1] 其中， Hin代表输入数据的h值， Hout代表输出数据的h值， stride[0]代表步长的第一维大小， stride[1]代表步长的第二个维度的大小， padding[0]代表填充值的第一维的值， padding[1]代表填充值的第二维的值， Kernel_size[0]代表卷积核的第一个维度， Kernel_ size[1]代表卷积核的第二个维度； output_padding[0]默认为0， output_padding[1]默认权　利　要　求　书 1/3 页 2 CN 114881762 A 2为0，其中，反卷积操作变卷积核操作，其思想为：设定卷积核的大小为[1,m]，其中m遵循 (2.1)中确认的关于数据的小维度的n值，从而保证生成的数据符合某个领域的数据分布的假设。 6.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：步骤(2.3)中的激活函数采用批量正则化，其公式遵循激活函数采用 ReLU函数，公式为ReLU(x)＝(x)+＝max(0,x)。 7.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：所述的步骤二(2.4)中，神经网络最后一层通过反卷积操作后，需要保证最后的维数与(1.1) 中数据每一条维度必须相同，从而设置单独的卷积核，且最后采用Tanh激活函数，其中， tanh激活函数为 8.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：所述的步骤三(3.1)中，卷积操作遵循的公式为：其中， bias代表扰动项， weight代表权重， *表示为互相关计算；放大到的维数，依照具体情况确定；其中采用的正则化操作为 InstanceN orm2d，遵循的操作为：其中x 为输入特征， E[x]为特征的期望值， Var[x]为特征方差， ε为残差项，其中γ和β 表示这个向量所对应的g amma和beta参数的通道值；其中，采用的激活函数为 LeakyReLU，遵循的操作为： 9.根据权利要求1所述的一种基于生成对抗学习填补金融数据的方法，其特征在于：所述的步骤四(4.1)中，所采用的数据加权方式为其中， xg为生成器生成的数据， xr为真实数据；所述的步骤四(4.2)中，所采用的梯度惩罚项为：每次训练的梯度项进行标准化之后，采用其中，为生成数据的数据分布的均值，为组合后数据的数据分布的二范数；所述的步骤四 ( 4 . 3 ) 中，所采用的更新后的损失函数为：采用其中，为生成数据的数据分布的均值，真实数据的数据分布的均值，为组合后数据的数据分布的二范数；权　利　要　求　书 2/3 页 3 CN 114881762 A 3

专利 一种基于生成对抗学习填补金融数据的方法

专利一种基于生成对抗学习填补金融数据的方法