专利一种面向威胁情报图谱的攻防行为和时空信息抽取方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210259684.1 (22)申请日 2022.06.09 (71)申请人广州大学地址 510006 广东省广州市大学城外环西路230号 (72)发明人李树栋　黄倩岚　吴晓波　韩伟红　方滨兴　田志宏　顾钊铨　 (74)专利代理机构北京高航知识产权代理有限公司 11530 专利代理师刘艳玲 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/35(2019.01) G06F 40/279(2020.01) G06F 40/30(2020.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种面向威胁情报图谱的攻防行为和时空信息抽取方法 (57)摘要本发明涉及网络安全技术领域，且公开了一种面向威胁情报图谱的攻防行为和时空信息抽取方法，包括以下步骤， S1、使用jieba与Bert模型将语句分词和向量化， S2、探测该句所有的关系， S3、时间戳、 IP地址抽取， S4、一体化联合翻译解码方案， S5、将时空数据与三元组进行加权软投票， S6、数据重拼接与输出。该面向威胁情报图谱的攻防行为和时空信息抽取方法，本发明是目前为数不多的针对网络安全中的威胁情报信息的攻防行为的模式与其时空信息进行结合的一个模型，并对其相应的文本信息进行了实体和关系的明确定义和抽取模式的发明，在一定程度上为定义真实安全场景中常见的概念抽取问题提供了可行的思路。权利要求书2页说明书9页附图1页 CN 115080756 A 2022.09.20 CN 115080756 A 1.一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于，包括以下步骤： S1、语句分词并且向量化对于输入模型的文本数据，首先使用jieba分词工具将文本数据进行分词，然后将分好词的数据输入到预训练语言Bert模型中，通过Bert模型可以为每一个单词得到一个获取好上下文语义的向量值； S2、关系探测将已向量化好的语句输入一个全连接层，将语句与关系库中存在的所有关系进行联合预测并且自定义阈值，当的值大于自定义的阈值时，将该关系加入到该句子的预测关系库Ω中，直至遍历完所有关系，得到该句的关系库λ＝{relation1， relation2， ......， relati on3}，概率的具体计算方式如下：其中σ 是sigmoid函数， Wrelation、 brelation分别是可训练参数， Wrelation的第一个维度是1，第二个维度为Ber t向量的维度；损失函数为交叉熵损失函数，公式如下：其中n是输入句子的长度， yi∈{1， 0)，表示关系的真实标签； S3、时间戳、 IP地址抽取提取出输入语句中所有的时间戳和IP地址，在这一部分我们采用的方法是规则匹配方法，对于时间戳，主要参考了RFC3161协议对时间戳格式的规定，按照此规定格式抽取，形成该句的时间戳库， IP地址存在xxx.xxx.xxx.xxx这样的模式并且其中的x的取值范围在0至 255之间，根据此规则我们可以提取出句子中的所有IP地址，形成该句的IP地址库； S4、翻译解码方案基于翻译机制的解码模式阶段，我们为每一个关系使用了两个多头标注框架，一个用来标注头实体，一个用来标注尾实体，我们是先标注头实体Subject，然后再根据Subject寻找0bject，并且采取我们自定义阈值，当标注计算值p大于阈值时，即为标记成功，其中 Subject的标注公式如下所示： Object的标注公式如下所示：其中Wsubject、 bsubject、 Wobject、 bobject分别是可训练参数； S5、时空数据与三元组进行加权软投票使用XGBoost作为基础模型，将所有时空数据与已解码的三元组分别与时间戳库空和 IP地址库(统称时空信息)中的数值进行拼接，再分别单独输入到基础模型中训练，然后反过来使用训练好的模型去预测训练集样本，得到每个特征对应的原始预测概率，其次，将训练集数据按照不同的时空信息进行分组，根据每个特征在每组样本的预测结果和真实三元权　利　要　求　书 1/2 页 2 CN 115080756 A 2组与时空的拼接来计算logloss，并将logloss的负对数值作为当前特征在当前真实三元组与时空的拼接上的权重值；得到上述权重后，将每个模型的预测概率乘上对应权重然后相加，得到新的预测概率，对于每一个拼接值，将相加后概率值最大的类确定为样本拼接(即投票结果)，然后再从参与投票的所有模型中选取预测结果与投票结果一致且预测概率值最大的结果作为该样本的最终预测结果，从而完成软投票过程； S6、数据重拼接与输出将上一步输出的结果先进行简单拼接的数据进行拆分，将与时空数据拼接后非最大概率的三元组直接进行输出，对于预测概率最大的三元组，在其关系用 “：”对时空数据进行拼接，例如： (S2， rel ation1， O2)变成(S2， rel ation1:时间戳， O2)或(S2， rel ation1:IP地址， O2)或(S2， relati on1:时间戳+IP地址， O2)，然后将其进行输出。 2.根据权利要求1所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于：所述步骤S1前需要进行实体和关系的类别表述。 3.根据权利要求2所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于：所述实体和关系的类别表述包括漏洞、攻击者、受害者、攻击、防御、时空信息、后果、软件和恶意软件。 4.根据权利要求3所述的一种面向威胁情报图谱的攻防行为和时空信息抽取方法，其特征在于：所述漏洞为 “名称、编号(IDS)、危险等级、漏洞披露时间、发现方 ”，所述攻击者为 “组织、人”，所述受害者为 “组织、人、设备、网站、产品 ”，所述攻击为 “攻击工具、攻击模式 (钓鱼攻击、勒索攻击) ”，所述防御为 “补丁、技术措施、政策措施、操作防范 ”，所述时空信息为“攻击时间戳、 IP地址 ”，所述后果为 “损失金额、受损设备、受害设备数量 ”，所述软件和恶意软件为“软件名称 ”。权　利　要　求　书 2/2 页 3 CN 115080756 A 3

专利 一种面向威胁情报图谱的攻防行为和时空信息抽取方法

专利一种面向威胁情报图谱的攻防行为和时空信息抽取方法