专利基于伪孪生堆栈自编码器的网络入侵检测方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111634727.1 (22)申请日 2021.12.2 9 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人涂山山　尹明希　杨勇杰　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 代理人刘萍 (51)Int.Cl. H04L 9/40(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于伪孪生堆栈自编码器的网络入侵检测方法 (57)摘要基于伪孪生堆栈自编码器的网络入侵检测方法属于网络安全领域。对网络攻击的分析和检测应该被重视。基于传统深度学习方法的准确率和检测率较低、泛化能力较差和假阳率较高。本发明提出了一种提出了一种基于伪孪生SAE的网络入侵检测方法。首先分别使用正样本集和负样本集无监督训练两个互为伪孪生结构的SAE，有效抽取流量的深层语义特征空间，从而放大特征重构后的正负样本之间的差异。其次通过有标签的监督训练，提高检测准确性，并使用逻辑运算结合两个伪孪生编码器使最终检测结果达到最优。在入侵检测数据集NSL ‑KDD的测试集KDDTest +和KDDTest ‑21上的实验表明，本发明的入侵检测准确性高于传统深度学习方法。权利要求书2页说明书4页附图1页 CN 114338165 A 2022.04.12 CN 114338165 A 1.一种基于伪孪生堆栈自编码器的网络入侵检测方法，其特征在于： (1)设计了一个针对入侵检测数据集 NSL‑KDD的预处理步骤，以提升检测的准确性； (2)设计了一个基于无监督逐层训练两个伪孪生结构的SAE，利用正负样本对网络分别训练，以得到正常流量和异常流量的深层语义特征； (3)对两个网络进行进一步有标签的全数据集监督训练，以提高检测准确性； (4)构建一个用于整合两个伪孪生结构的SAE检测结果的逻辑运算策略，以得到最终的入侵检测结果。 2.根据权利要求1所述的方法，其特征在于步骤(1)中，将入侵检测数据集NSL‑KDD中的无意义特征即只有一个取值的特征进行删除，为了使符号特征中每个取值之间的距离相同，将这三个符号特征转化为one ‑hot编码；使用的是Z ‑score特征缩放方法，将特征数值缩放到0附近，同时不改变数据分布以消除特征之间量纲的影响；特征缩放算法如下所示：其中X为原始特征， mean(x)为该类特征均值， σ 为标准差。 3.根据权利要求1所述的方法，其特征在于步骤(2)中，首先根据数据集网络攻击类别标签将训练集划分为正常即无网络攻击数据集和异常即有网络攻击数据集；使用6个AE构建伪孪生SAE；其中3个AE基于正常数据堆叠成SAE_N,另外3个AE基于异常数据堆叠成SAE_ A；通过后向传播算法来最小化输出和输入之间的最小均方误差，得到AE(i)的隐藏层H(i)；对于AE(i)_N， N表示该AE基于正常数据集训练， i为AE_N的序号； H(i)作为AE(i+1)_N的输入层继续重复SAE构建步骤，直到AE(i＝3)_N训练完成，最后将3个AE的隐藏层组合成SAE_N；构建3SAE_ N。 4.根据权利要求3所述的方法，其特征在于步骤(3)中，使用整个训练集对预训练构建的SAE_A和SAE_N分别进行有监督的分类训练，通过后向传播算法对网络超参数进行微调来最小化损失函数；从而提高模型对正常记录和异常记录的区分度，最大化正负样本之间的差异；微调具体实现为对网络迭代训练， 500轮训练后的网络超参数为最终网络的参数；损失函数如公式1所示，其中yi表示样本真实标签，表示模型预测该样本为阳性标签的概率；。 5.根据权利要求1所述的方法，其特征在于步骤(4)中，构建一个用于整合两个伪孪生结构的SAE检测结果的逻辑运算策略，以得到最终的入侵检测结果；由于SAE_N与SAE_A是在步骤(3)中分别基于正常数据集和异常数据集来预训练构建的，导致SAE_N和SAE_A对正负样本的敏感度不同；为了防止模型向预训练数据集偏移，同时结合两个伪孪生SAE的优势，在本步骤中，使用逻辑运算将SAE_A和SAE_N对同一记录的预测结果进行运算，使得最终结果达到最优；规定a标签为阳性， n标签为阴性；逻辑运算的运算法则如下公式所示：权　利　要　求　书 1/2 页 2 CN 114338165 A 2设某一样本为S， pa表示SAE_A预测S为阳性的概率， pn表示SAE_N预测S为阳性的概率， p 为使用逻辑运算结合pa和pn后的概率；当两个互为伪孪生结构的S AE对S的标签预测相同时，即pa和pn均大于等于0.5或者小于等于0.5时，认为该预测值可信；当两个孪生SAE对S的预测相悖时，考虑到网络的安全性，认为S更有可能为阳性，但是考虑到模型向数据集的偏移，设定pa的阈值为0.9，当pa大于0.9且pn小于0.5时， p等于pn，即S为阴性，其余情况为阳性。权　利　要　求　书 2/2 页 3 CN 114338165 A 3

专利 基于伪孪生堆栈自编码器的网络入侵检测方法

专利基于伪孪生堆栈自编码器的网络入侵检测方法