专利用于主机入侵检测的系统调用序列数据增强方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210536796.7 (22)申请日 2022.05.17 (71)申请人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人罗森林　巩锟　潘丽敏　李橙　郝靖伟　 (51)Int.Cl. G06F 16/25(2019.01) G06F 16/901(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称用于主机入侵检测的系统调用序列数据增强方法 (57)摘要本发明涉及一种用于主机入侵检测的系统调用序列数据增强方法，属于计算机与网络空间安全领域。本发明首先利用少数类样本构建系统调用序列对数据库；之后将序列数据转换成图结构数据，以更好地表征系统调用之间的关系；然后使用基于多头注意力机制的图转换网络和 LSTM网络分别构建图编码器和序列解码器，学习系统调用序列行为语义中包含的时序依赖关系；最后，基于系统调用时序依赖关系循环生成少数类系统调用序列样本，以实现对少数类样本的数据增强。本发明能够弥补现有系统调用数据增强方法未充分挖掘利用序列信息，导致生成序列与原序列语义不一致的问题，生成反映样本序列关系的增强样本，有效提高主机入侵检测的检测准确率。权利要求书1页说明书5页附图2页 CN 115048442 A 2022.09.13 CN 115048442 A 1.用于主机入侵检测的系统调用序列数据增强方法，其特征在于所述方法包括如下步骤：步骤1，建立系统调用的词库，利用少数类样本构建系统调用序列对数据库作为增强的数据来源；步骤2，将序列对数据转换成图结构数据，以更好地表征系统调用之间的关系，之后设置全局节点表征全局信息，构建无标记二分图；步骤3，建立基于Enocoder ‑Decoder架构的Graph2seq模型实现Graph to sequence的转换，以循环方式进行序列生成得到数据增强后的少数类系统调用序列样本。 2.根据权利要求1所述的用于主机入侵检测的系统调用序列数据增强方法，其特征在于：步骤1中从少数类样本中的N ‑gram系统调用原始序列，其中k为训练集中多数样本和少数样本数量的差值，之后将原始序列通过一个滑动窗口截取长度为固定值的序列，并将该序列划分为源序列和目标序列以构建序列对数据库。 3.根据权利要求1所述的用于主机入侵检测的系统调用序列数据增强方法，其特征在于：步骤2中将系统调用序列转换成关系图，把系统调用视为图的节点，边为系统调用之间的关系；设置全局节点，设置边节点替换标记边构建无标记二分图，实现Sequence to graph的转换。 4.根据权利要求1所述的用于主机入侵检测的系统调用序列数据增强方法，其特征在于：步骤3建立基于Encoder ‑Decoder架构的Graph2seq模型，使用基于多头注意力机制的 Graph Transfromer作为Graph2seq模型的编码器对节点进行编码；使用基于多头注意力机制的LSTM网络构成解码器输出系统调用的出现概率；设置样本生成模块，取出现概率最大的系统调用，将生成的系统调用附加到输入序列尾部，通过循环方式进行序列生成以实现 Graph to sequence的转换，最终得到数据增强后的少数类系统调用序列样本。权　利　要　求　书 1/1 页 2 CN 115048442 A 2用于主机入侵检测的系统调用序列数据增强方法技术领域 [0001]本发明涉及一种数据增强方法，尤其是指一种用于主机入侵检测的系统调用序列数据增强方法，属于计算机与网络空间安全领域。背景技术 [0002]系统调用是操作系统实现并提供给应用程序调用的内核函数，它可以被实时获取，从而完整监视系统行为。因此，由系统调用组成的包含顺序关系的系统调用序列是判断主机系统是否遭到攻击的重要数据源。但是系统调用序列的攻击样本数量远少于正常样本的数量，这一数据不平衡问题严重影响基于系统调用序列数据的入侵检测模型的训练效果。为了使检测模型具备更好的检测性能，需要增加用于模型训练的少数类样本的数据量使不同样本数据量达到平衡。数据增强是应对数据不平衡问题的有效手段，其基本思想是在保持正确标签的同时生成覆盖未探测输入空间的合成数据集。目前针对系统调用序列的有效数据增强方法包括传统的SMOTE过采样方法和基于GAN 的数据增强方法。 [0003]1.SMOTE过采样方法 [0004]SMOTE过采样方法可以合成新的少数类样本，但是它可能会改变原始数据的分布并导致过度拟合，并且会因为忽略多数样本和少数样本的边界导致在合成样本时引入噪声，且不能充分挖掘和利用序列中系统调用的顺序及其关系。 [0005]2.基于GAN的数据增强方法 [0006]使用传统GAN方法进行图像数据增强是计算机视觉领域的一般做法，通过对图像添加噪声达到数据增强的目的。图像中像素的微小变化不会改变整张图片表达的语义，但将系统调用序列转换为图像格式进行数据增强会改变其语义。 [0007]综上所述，现有系统调用序列数据增强方法未充分挖掘和利用序列中系统调用的顺序及其关系，导致生成数据可能与原数据的语义不一致。针对这一问题，本发明提出能够提取用于主机入侵检测的系统调用序列数据增强方法。发明内容 [0008]本发明的目的是解决目前基于系统调用序列的数据增强方法没有充分挖掘和利用序列中系统调用的顺序及其关系信息的问题，提出一种用于主机入侵检测的系统调用序列数据增强方法。 [0009]本发明的设计原理为：首先利用少数类系统调用序列样本构建系统调用序列对数据库，将序列数据划分为源序列和目标序列；之后将序列数据转换成图结构数据，以更好地表征系统调用之间的关系；然后使用基于多头注意力机制的图转换网络和LSTM网络分别构建Graph2seq模型的编码器和解码器，学习系统调用序列行为语义中包含的时序依赖关系；最后，通过Graph2seq 模型学习到的系统调用时序依赖关系循环生成少数类系统调用序列样本，以实现对少数类样本的数据增强。 [0010]本发明的技术方案是通过如下步骤实现的：说　明　书 1/5 页 3 CN 115048442 A 3

专利 用于主机入侵检测的系统调用序列数据增强方法

专利用于主机入侵检测的系统调用序列数据增强方法