说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111642579.8 (22)申请日 2021.12.2 9 (71)申请人 北京天融信网络安全技 术有限公司 地址 100000 北京市海淀区上地 东路1号院 3号楼四层 申请人 北京天融信科技有限公司   北京天融信软件 有限公司 (72)发明人 江军 王炜 陈世武 杨渝  (74)专利代理 机构 北京开阳星知识产权代理有 限公司 1 1710 代理人 吴崇 (51)Int.Cl. G06K 9/62(2022.01) H04L 9/40(2022.01) (54)发明名称 对象标注方法、 装置、 设备及 介质 (57)摘要 本公开涉及一种对象标注方法、 装置、 设备 及介质。 其中, 对象标注方法包括: 获取待标注对 象; 将待标注对象输入低漏报检测模型, 得到第 一预测结果, 低漏报检测模型根据预设样本集和 第一损失函数训练得到; 若第一预测结果指示待 标注对象为异常对象, 将待 标注对象输入低误报 检测模型, 得到第二预测结果, 低误报检测模型 根据预设样 本集和第二损失函数训练得到; 根据 第二预测结果, 确定待标注对象的标注结果; 其 中, 第一损失函数中的漏报误差项具有第一权重 系数, 第二损失函数中的漏报误差项具有第二权 重系数, 第一权重系数大于第二权重系数。 根据 本公开实施例, 能够降低对象标注的成本, 提升 对象标注的效率和准确率。 权利要求书2页 说明书15页 附图3页 CN 114282624 A 2022.04.05 CN 114282624 A 1.一种对象标注方法, 其特 征在于, 包括: 获取待标注对象; 将所述待标注对象输入低漏报检测模型, 得到所述低漏报检测模型输出的第 一预测结 果; 其中, 所述低漏报检测模型根据预设样本集和第一损失函数训练得到; 若所述第一预测结果指示所述待标注对象为异常对象, 将所述待标注对象输入低 误报 检测模型, 得到所述低误报 检测模型输出的第二预测结果; 其中, 所述低误报 检测模型根据 所述预设样本集和第二损失函数训练得到; 根据所述第二预测结果, 确定所述待标注对象的标注结果; 其中, 所述第一损 失函数中的漏报误差项具有第一权重系数, 所述第二损 失函数中的 漏报误差项具有第二权重系 数, 所述漏报误差项对应所述预设样本集中的正样本, 所述第 一权重系数大于所述第二权 重系数。 2.根据权利要求1所述的方法, 其特征在于, 在所述获取待标注对象之前, 所述方法还 包括: 获取所述预设样本集和检测样本集; 基于所述预设样本集和所述检测样本集, 利用所述第 一损失函数对预设低漏报模型进 行迭代训练, 直至满足预设的训练截止条件, 得到训练好的低漏报检测模型; 基于所述预设样本集和所述检测样本集, 利用所述第 二损失函数对预设低 误报模型进 行迭代训练, 直至满足所述训练截止条件, 得到训练好的低误报检测模型。 3.根据权利要求2所述的方法, 其特征在于, 所述获取所述预设样本集和检测样本集, 包括: 利用预设过 滤规则, 将候选样本集划分为可疑样本集和非可疑样本集; 利用k‑means聚类算法, 对所述非可疑样本集中的样本进行 聚类, 得到多个非可疑样本 组; 对所述多个非可疑样本组进行随机抽取, 得到抽取后的第 一样本组和未被抽取的第 二 样本组; 根据所述可疑样本集和所述第一样本组, 生成所述预设样本集; 根据所述第二样本组, 生成所述检测样本集。 4.根据权利要求3所述的方法, 其特征在于, 所述候选样本集中的样本为样本邮件数 据, 所述待标注对象为待标注邮件数据; 所述预设过滤规则包括威胁情报匹配规则、 特征库匹配规则和手工筛选规则中的至少 一种。 5.根据权利要求3所述的方法, 其特征在于, 所述根据所述可疑样本集和所述第 一样本 组, 生成所述预设样本集, 包括: 对所述可疑样本集的各个样本和所述第 一样本组 的各个样本进行核验, 得到各个样本 的核验结果; 将核验结果 为异常样本的样本, 作为所述预设样本集的正样本; 将核验结果 为非异常样本的样本, 作为所述预设样本集的负 样本。 6.根据权利要求5所述的方法, 其特征在于, 所述漏报误差项包括加权漏报误差项和非 加权漏报误差项, 所述加权漏报误差项还具有第三权重系 数, 所述加权漏报误差项来源于权 利 要 求 书 1/2 页 2 CN 114282624 A 2属于第一来源的正样本, 所述非加权漏报误差项来源于属于第二来源的正样本, 所述第二 来源为所述第一 来源以外的其 他来源; 其中, 所述第一来源包括所述第一样本组中的样本、 所述低漏报检测模型与所述低误 报检测模型的预测结果不一致的样本、 以及所述低误报 检测模型的预测结果与核验结果不 一致的样本 。 7.根据权利要求5或6所述的方法, 其特征在于, 所述第一损 失函数中的误报误差项和 所述第二损失函数中的误报误差项分别对应所述预设样本集中的负样本, 所述误报误差项 包括加权误报误差项和非加权误报误差项, 所述加权误报误差项还具有第三权重系 数, 所 述加权误报误差项来源于属于第三来源的正样本, 所述 非加权误报误差项来源于属于第四 来源的正样本, 所述第四来源为所述第三 来源以外的其 他来源; 其中, 所述第三来源包括所述可疑样本集中的样本、 以及所述低漏报检测模型与所述 低误报检测模型的预测结果 不一致的样本 。 8.根据权利要求2所述的方法, 其特征在于, 所述训练截止条件包括下列中的至少一 种: 利用本次迭代训练得到的模型对所述检测样本集进行测试时未产生 新的异常样本; 迭代训练的次数达 到预设次数; 预设样本集中的负 样本数量达 到预设数量。 9.一种对象标注装置, 其特 征在于, 包括: 第一获取模块, 用于获取待标注对象; 第一预测模块, 用于将所述待标注对象输入低漏报检测模型, 得到所述低漏报检测模 型输出的第一预测结果; 其中, 所述低漏报检测模型根据预设样本集和第一损失函数训练 得到; 第二预测模块, 用于若所述第一预测结果指示所述待标注对象为异常对象, 将所述待 标注对象输入低误报检测模 型, 得到所述低误报 检测模型输出的第二预测结果; 其中, 所述 低误报检测模型根据所述预设样本集和第二损失函数训练得到; 对象标注模块, 用于根据所述第二预测结果, 确定所述待标注对象的标注结果; 其中, 所述第一损 失函数中的漏报误差项具有第一权重系数, 所述第二损 失函数中的 漏报误差项具有第二权重系 数, 所述漏报误差项对应所述预设样本集中的正样本, 所述第 一权重系数大于所述第二权 重系数。 10.一种对象标注设备, 其特 征在于, 包括: 处理器; 存储器, 用于存 储可执行指令; 其中, 所述处理器用于从所述存储器中读取所述可执行指令, 并执行所述可执行指令 以实现上述权利要求1 ‑8中任一项所述的对象标注方法。 11.一种计算机可读存储介质, 其特征在于, 所述存储介质存储有计算机程序, 当所述 计算机程序被处理器执行时, 使得处理器实现用上述权利要求1 ‑8中任一项所述的对象标 注方法。权 利 要 求 书 2/2 页 3 CN 114282624 A 3

.PDF文档 专利 对象标注方法、装置、设备及介质

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 对象标注方法、装置、设备及介质 第 1 页 专利 对象标注方法、装置、设备及介质 第 2 页 专利 对象标注方法、装置、设备及介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。