说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111652510.3 (22)申请日 2021.12.3 0 (71)申请人 绿盟科技 集团股份有限公司 地址 100089 北京市海淀区北洼路4 号益泰 大厦5层 申请人 北京神州绿盟科技有限公司 (72)发明人 王全 黄俊 袁帅  (74)专利代理 机构 北京同达信恒知识产权代理 有限公司 1 1291 代理人 田小倩 (51)Int.Cl. G06F 16/36(2019.01) G06F 16/901(2019.01) G06F 16/9035(2019.01) G06F 16/9038(2019.01)G06F 40/143(2020.01) G06F 40/289(2020.01) G06F 40/295(2020.01) H04L 9/40(2022.01) (54)发明名称 一种数据检测方法、 装置、 电子设备及存储 介质 (57)摘要 本申请公开了一种数据检测方法、 装置、 电 子设备及存储介质, 所述数据检测方法, 包括: 确 定接收的待检测数据所属的第一业务类型, 若确 定从构建的网络安全知识 图谱中匹配到第一业 务类型的基线子图, 则提取待检测数据中的实体 和实体间的关系, 其中, 网络安全知识图谱包含 网络安全领域中至少两种业务类型的基线子图, 将待检测数据中的实体和实体间的关系与第一 业务类型的基线子图进行匹配, 获得第一匹配结 果, 将待检测数据中的实体和实体间的关系 与网 络安全知识 图谱中除第一业务类型的基线子图 之外的其他业务类型的基线子图进行匹配, 获得 第二匹配结果, 根据第一匹配结果和第二匹配结 果确定待检测数据的检测结果。 权利要求书4页 说明书15页 附图6页 CN 114357190 A 2022.04.15 CN 114357190 A 1.一种数据检测方法, 其特 征在于, 包括: 接收待检测数据, 确定所述待检测数据所属的第一 业务类型; 若确定从构建的网络安全知识图谱中匹配到所述第 一业务类型的基线子图, 则提取所 述待检测数据中的实体和实体间的关系, 其中, 所述网络安全知识图谱包含网络安全领域 中至少两种业务类型的基线子图, 任一业务类型的基线子图是根据从所述任一业务类型的 历史情报文本数据集中提取的实体和实体间的关系构建的知识图谱, 所述网络安全知识图 谱是根据所述至少两种业 务类型的基线子图中的实体的关联关系融合 生成的; 将所述待检测数据中的实体和实体间的关系与所述第一业务类型的基线子图进行匹 配, 获得第一匹配结果; 并 将所述待检测数据中的实体和实体间的关系与所述网络安全知识图谱中除所述第一 业务类型的基线子图之外的其 他业务类型的基线子图进行匹配, 获得第二匹配结果; 根据所述第一匹配结果和所述第二匹配结果确定所述待检测数据的检测结果。 2.如权利要求1所述的方法, 其特征在于, 在确定所述待检测数据 所属的第 一业务类型 之后, 还包括: 若确定从网络安全知识图谱中未匹配到所述第 一业务类型的基线子图, 则获取所述第 一业务类型的历史情 报文本数据集; 根据从所述第一业务类型的历史情报文本数据集中提取的实体和实体间的关系构建 所述第一 业务类型的基线子图; 根据所述第一业务类型的基线子图中的实体与所述网络安全知识图谱中已有的各业 务类型的基线子图中的实体的关联关系将所述第一业务类型的基线子图融合至所述网络 安全知识图谱。 3.如权利要求1所述的方法, 其特征在于, 通过以下方式构建所述任一业务类型的基线 子图: 获取所述任一 业务类型的历史情 报文本数据集; 根据预设实体识别模型提取 所述历史情 报文本数据集中的每一情 报文本中的实体; 根据预设 关系抽取规则抽取 所述每一情 报文本中的实体间的关系; 根据所述每一情 报文本中的实体和所述实体间的关系构建所述 业务类型的基线子图。 4.如权利要求3所述的方法, 其特征在于, 所述预设实体识别模型包括第一预训练模 型、 第二预训练模型和序列标注模型; 根据预设实体识别模型提取所述历史情报文本数据集中的每一情报文本 中的实体, 具 体包括: 针对所述历史情报文本数据集中的每一情报文本, 对所述情报文本进行分词处理, 将 分词后得到的各个词语输入所述第一预训练模型, 获得对应的各个词向量; 将所述各个词向量输入所述第二预训练模型, 获得所述各个词语对应的实体类型向 量; 将所述各个词语对应的实体类型向量输入所述序列 标注模型, 获得所述各个词语对应 的实体识别结果。 5.如权利要求4所述的方法, 其特征在于, 所述第一预训练模型为自适应Bert模型, 所 述自适应Ber t模型采用以下公式对当前位置词的词向量进行位置编码:权 利 要 求 书 1/4 页 2 CN 114357190 A 2其中, AG‑POSVEC(pos)表示所述当前位置词的词向量的位置编码; pos表示所述当前位置词在当前语句中的位置; α 、 β 为平衡因子; d表示所述词向量的维度; LN(pos, θ )为 位置编码损失正则化项, 表示Bert模型损失的期 望, λ为步长, μ为容忍度因子, 表示Bert模型的损失函数, y表示所述当 前位置词的真实标签, θ为Bert模型的参数, 表示在Bert模型参数为θ 的条件下, 所述当前位置词的标签的预测值, 表示从当前位置跨入λ个位置时对应词 的标签的预测值, 表示 与 的误差总和。 6.如权利要求4所述的方法, 其特征在于, 所述序列标注模型包括CRF层, 所述CRF层预 测当前位置词所属的实体 类别的最佳路径的得分公式为: 其中, score(k,v)为所述当前位置词所属的实体类别的最佳路径的得分, k表示所述当 前位置词所属语句的第i个子块的标注序列, v表示所述当前位置词的词向量; L(ni‑1,ni,v,ti,bi)表示相邻两个子块ni‑1和ni的标签输入词向量v, 第i个子块的起始位 置与结束位置之间标签的转移分数; ni表示所述第i个子块, ni‑1表示第i‑1个子块; si表示所述第i个子块的起始 标签在所述 当前位置词所属语句中的位置, bi表示所述第i个子块的结束标签在所述当前位置词所属 语句中的位置, w表示权 重系数; Oi表示所述第i个子块对应的归一 化后的分数; 表示从所述第i ‑1个子块到所述第i个子 块的转移分数, 表示所述词向量标签 的权重参数向量。 7.一种数据检测装置, 其特 征在于, 包括: 接收单元, 用于接收待检测数据, 确定所述待检测数据所属的第一 业务类型;权 利 要 求 书 2/4 页 3 CN 114357190 A 3

.PDF文档 专利 一种数据检测方法、装置、电子设备及存储介质

文档预览
中文文档 26 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共26页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种数据检测方法、装置、电子设备及存储介质 第 1 页 专利 一种数据检测方法、装置、电子设备及存储介质 第 2 页 专利 一种数据检测方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:25:17上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。