说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210536796.7 (22)申请日 2022.05.17 (71)申请人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 罗森林 巩锟 潘丽敏 李橙  郝靖伟  (51)Int.Cl. G06F 16/25(2019.01) G06F 16/901(2019.01) G06F 40/30(2020.01) G06N 3/04(2006.01) (54)发明名称 用于主机入侵检测的系统调用序列数据增 强方法 (57)摘要 本发明涉及一种用于主机入侵检测的系统 调用序列数据增强方法, 属于计算机与网络空间 安全领域。 本发 明首先利用少数类样本构建系统 调用序列对 数据库; 之后将序列数据转换成图结 构数据, 以更好地表征系统调用之间的关系; 然 后使用基于多头注意力机制的图转换网络和 LSTM网络分别构建图编码器和序列解码器, 学习 系统调用序列行为语义中包含的时序依赖关系; 最后, 基于系统调用时序 依赖关系循环生成少数 类系统调用序列样本, 以实现对少数类样本的数 据增强。 本发 明能够弥补现有系统调用数据增强 方法未充分挖掘 利用序列信息, 导致生成序列与 原序列语义不一致的问题, 生 成反映样本序列关 系的增强样 本, 有效提高主机入侵检测的检测准 确率。 权利要求书1页 说明书5页 附图2页 CN 115048442 A 2022.09.13 CN 115048442 A 1.用于主机入侵检测的系统调用序列 数据增强方法, 其特征在于所述方法包括如下步 骤: 步骤1, 建立系统调用的词库, 利用少数类样本构建系统调用序列对数据库作为增强的 数据来源; 步骤2, 将序列对数据转换成图结构数据, 以更好地表征系统调用之间的关系, 之后设 置全局节点表征全局信息, 构建无 标记二分图; 步骤3, 建立基于Enocoder ‑Decoder架构的Graph2seq模型实现Graph  to sequence的 转换, 以循环方式进行序列生成得到数据增强后的少数类系统调用序列样本 。 2.根据权利要求1所述的用于主机入侵检测的系统调用序列数据增强方法, 其特征在 于: 步骤1中从少数类样本中的N ‑gram系统调用原始序列, 其中k为训练集中多数样本和少 数样本数量的差值, 之后将原始序列通过一个滑动窗口截取长度为固定值的序列, 并将该 序列划分为源序列和目标序列以构建序列对数据库。 3.根据权利要求1所述的用于主机入侵检测的系统调用序列数据增强方法, 其特征在 于: 步骤2中将系统调用序列转换成关系图, 把系统调用视为图的节点, 边为系统调用之间 的关系; 设置全局节点, 设置边节点替换标记边构建无标记二分图, 实现Sequence  to  graph的转换。 4.根据权利要求1所述的用于主机入侵检测的系统调用序列数据增强方法, 其特征在 于: 步骤3建立基于Encoder ‑Decoder架构的Graph2seq模型, 使用基于多头注意力机制的 Graph Transfromer作为Graph2seq模型的编码器对节点进行编码; 使用基于多头注意力机 制的LSTM网络构成解码器输出系统调用的出现概率; 设置样本生成模块, 取出现概率最大 的系统调用, 将生成的系统调用附加到输入序列尾部, 通过循环方式进行序列生成以实现 Graph to sequence的转换, 最终得到数据增强后的少数类系统调用序列样本 。权 利 要 求 书 1/1 页 2 CN 115048442 A 2用于主机入侵检测的 系统调用序列 数据增强方 法 技术领域 [0001]本发明涉及 一种数据增强方法, 尤其是指一种用于主机入侵检测的系统调用序列 数据增强方法, 属于计算机与网络空间安全领域。 背景技术 [0002]系统调用 是操作系统实现并提供给应用程序调用的内核函数, 它可以被实时获 取, 从而完整监视系统行为。 因此, 由系统调用组成的包含顺序关系的系统调用序列是判断 主机系统是否遭到攻击的重要 数据源。 但是系统调用序列的攻击样本数量远少于正常样本 的数量, 这一数据不平衡问题严重影响基于系统调用序列数据 的入侵检测模型的训练效 果。 为了使检测模型具备更好的检测性能, 需要增加用于模型训练的少数类样本的数据量 使不同样本数据量达到平衡。 数据增强是应对数据不平衡问题的有效手段, 其基本思想是 在保持正确标签的同时生成覆盖未探测输入空间的合成数据集。 目前针对系统调用序列的 有效数据增强方法包括传统的SMOTE过采样方法和基于GAN  的数据增强方法。 [0003]1.SMOTE过采样方法 [0004]SMOTE过采样方法可以合成新的少数类样本, 但是它可能会改变原始数据的分布 并导致过度拟合, 并且会因为忽略多数样本和少数样本的边界导致在合成样本时引入噪 声, 且不能充分挖掘和利用序列中系统调用的顺序及其关系。 [0005]2.基于GAN的数据增强方法 [0006]使用传统GAN方法进行图像数据增强是计算机视觉领域的一般做法, 通过对图像 添加噪声达到数据增强的目的。 图像中像素 的微小变化不会 改变整张图片表达的语义, 但 将系统调用序列转换为图像 格式进行 数据增强会改变其语义。 [0007]综上所述, 现有系统调用序列数据增强方法未充分挖掘和利用序列中系统调用的 顺序及其关系, 导致生成数据可能与 原数据的语义不一致。 针对这一问题, 本发明提出能够 提取用于主机入侵检测的系统调用序列数据增强方法。 发明内容 [0008]本发明的目的是解决目前基于系统调用序列的数据增强方法没有充分挖掘和利 用序列中系统调用的顺序及其关系信息的问题, 提出一种用于主机入侵检测的系统调用序 列数据增强方法。 [0009]本发明的设计原理为: 首先利用少数类系统调用序列样本构建系统调用序列对数 据库, 将序列数据划分为源序列和目标序列; 之后 将序列数据转换成图结构数据, 以更好地 表征系统调用之 间的关系; 然后使用基于多头注意力机制的图转换网络和LSTM网络 分别构 建Graph2seq模型的编码 器和解码器, 学习系统调用序列行为语义中包含的时序 依赖关系; 最后, 通过Graph2seq  模型学习到的系统调用时序 依赖关系循环 生成少数类系统调用序列 样本, 以实现对少数类样本的数据增强。 [0010]本发明的技 术方案是通过如下步骤实现的:说 明 书 1/5 页 3 CN 115048442 A 3

.PDF文档 专利 用于主机入侵检测的系统调用序列数据增强方法

文档预览
中文文档 9 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共9页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 用于主机入侵检测的系统调用序列数据增强方法 第 1 页 专利 用于主机入侵检测的系统调用序列数据增强方法 第 2 页 专利 用于主机入侵检测的系统调用序列数据增强方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。