说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210259684.1 (22)申请日 2022.06.09 (71)申请人 广州大学 地址 510006 广东省广州市大 学城外环西 路230号 (72)发明人 李树栋 黄倩岚 吴晓波 韩伟红  方滨兴 田志宏 顾钊铨  (74)专利代理 机构 北京高航知识产权代理有限 公司 11530 专利代理师 刘艳玲 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种面向威胁情报图谱的攻防行为和时空 信息抽取方法 (57)摘要 本发明涉及网络安全技术领域, 且公开了一 种面向威胁情报图谱的攻防行为和时空信息抽 取方法, 包括以下步骤, S1、 使用jieba与Bert模 型将语句分词和向量化, S2、 探测该句所有的关 系, S3、 时间戳、 IP地址抽取, S4、 一体化联合翻译 解码方案, S5、 将时空数据与三元组进行加权软 投票, S6、 数据重拼接与输 出。 该面向威胁情报图 谱的攻防行为和时空信息抽取方法, 本发明是目 前为数不多的针对网络安全中的威胁情报信息 的攻防行为的模式与其时空信息进行结合的一 个模型, 并对其相应的文本信息进行了实体和关 系的明确定义和抽取模式的发明, 在一定程度上 为定义真实安全场景中常见的概念抽取问题提 供了可行的思路。 权利要求书2页 说明书9页 附图1页 CN 115080756 A 2022.09.20 CN 115080756 A 1.一种面向威胁情报图谱的攻防行为和时空信息抽取方法, 其特征在于, 包括以下步 骤: S1、 语句分词并且向量 化 对于输入模型的文本数据, 首先使用jieba分词工具将文本数据进行分词, 然后将分好 词的数据输入到预训练语 言Bert模型中, 通过Bert模 型可以为每一个单词得到一个获取好 上下文语义的向量 值; S2、 关系探测 将已向量化好的语句输入一个全连接层, 将语句与关系库中存在的所有关系 进行联合 预测 并且自定义阈值, 当 的值大于自定义的阈值时, 将该关系加入到 该句子 的预测关系库Ω中, 直至遍历完所有关系, 得到该句的关系库λ={relation1, relation2, ......, relati on3}, 概率的具体 计算方式如下: 其中σ 是sigmoid函数, Wrelation、 brelation分别是可训练参数, Wrelation的第一个维度是1, 第二个维度为Ber t向量的维度; 损失函数为交叉熵损失函数, 公式如下: 其中n是输入句子的长度, yi∈{1, 0), 表示关系的真实标签; S3、 时间戳、 IP地址抽取 提取出输入语句中所有的时间戳和IP地址, 在这一部分我们采用的方法是规则匹配方 法, 对于时间戳, 主要参考了RFC3161协 议对时间戳格式的规定, 按照此规定格式抽取, 形成 该句的时间戳库, IP地址存在xxx.xxx.xxx.xxx这样的模式并且其中的x的取值范围在0至 255之间, 根据此规则我们可以提取 出句子中的所有IP地址, 形成该句的IP地址库; S4、 翻译解码方案 基于翻译机制的解码模式阶段, 我们为每一个关系使用了两个多头标注框架, 一个用 来标注头实体, 一个用来标注尾实体, 我们是先标注头实体Subject, 然后再根据Subject寻 找0bject, 并且采取我们自定义阈值, 当标注计算值p大于阈值时, 即为标记成功, 其中 Subject的标注公式如下 所示: Object的标注公式如下 所示: 其中Wsubject、 bsubject、 Wobject、 bobject分别是可训练参数; S5、 时空数据与三元组进行加权软投票 使用XGBoost作为基础模型, 将所有时空数据与已解码的三元组分别与 时间戳库空和 IP地址库(统称时空信息)中的数值进行拼接, 再分别单独输入到基础模型中训练, 然后反 过来使用训练好的模 型去预测训练集样本, 得到每个特征对应的原始预测概率, 其次, 将训 练集数据按照不同的时空信息进 行分组, 根据每个特征在每组样本的预测结果和真实三元权 利 要 求 书 1/2 页 2 CN 115080756 A 2组与时空的拼接来计算logloss, 并将logloss的负对 数值作为当前特征在当前真实三元组 与时空的拼接上的权 重值; 得到上述权重后, 将每个模型的预测概率乘上对应权重然后相加, 得到新的预测概率, 对于每一个拼接值, 将相加后概率值最大的类确定为样本拼接(即投票结果), 然后再从参 与投票的所有模型中选取预测结果与 投票结果一致且预测 概率值最大的结果作为该样本 的最终预测结果, 从而完成软投票过程; S6、 数据重拼接与输出 将上一步输出的结果先进行简单拼接的数据进行拆分, 将与时空数据拼接后非最大概 率的三元 组直接进 行输出, 对于预测概率最大的三元组, 在其关系用 “:”对时空数据进 行拼 接, 例如: (S2, rel ation1, O2)变成(S2, rel ation1:时间戳, O2)或(S2, rel ation1:IP地址, O2)或(S2, relati on1:时间戳+IP地址, O2), 然后将其进行输出。 2.根据权利要求1所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法, 其 特征在于: 所述 步骤S1前需要 进行实体和关系的类别表述。 3.根据权利要求2所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法, 其 特征在于: 所述 实体和关系的类别表述包括漏洞、 攻击者、 受害者、 攻击、 防御、 时空信息、 后 果、 软件和恶意软件。 4.根据权利要求3所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法, 其 特征在于: 所述漏洞为 “名称、 编号(IDS)、 危险等级、 漏洞披露 时间、 发现方 ”, 所述攻击者为 “组织、 人”, 所述受害者为 “组织、 人、 设备、 网站、 产品 ”, 所述攻击为 “攻击工具、 攻击模式 (钓鱼攻击、 勒索攻击) ”, 所述防御为 “补丁、 技术措施、 政 策措施、 操作防范 ”, 所述时空信息 为“攻击时间戳、 IP地址 ”, 所述后果为 “损失金额、 受损设备、 受害设备数量 ”, 所述软件和恶 意软件为“软件名称 ”。权 利 要 求 书 2/2 页 3 CN 115080756 A 3

.PDF文档 专利 一种面向威胁情报图谱的攻防行为和时空信息抽取方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 第 1 页 专利 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 第 2 页 专利 一种面向威胁情报图谱的攻防行为和时空信息抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:42上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。