说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111632166.1 (22)申请日 2021.12.28 (71)申请人 杭州安恒信息技 术股份有限公司 地址 310000 浙江省杭州市滨江区西兴街 道联慧街18 8号 (72)发明人 黄章镕 范渊 刘博  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 吴磊 (51)Int.Cl. H04L 9/40(2022.01) H04L 51/08(2022.01) H04L 51/42(2022.01) H04L 61/4511(2022.01) G06F 16/35(2019.01)G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称 一种钓鱼邮件检测方法、 装置、 设备及存储 介质 (57)摘要 本发明公开了一种钓鱼邮件检测方法、 装 置、 设备及存储介质, 该方法包括: 获取邮件数据 集, 提取邮件 数据集中各邮件的多维度特征得到 特征数据集, 获取特征数据集中部分多维度特征 为训练集; 采用交叉训练预测的方式利用训练集 中每个维度的特征分别训练预测分类器, 得到与 每个维度的特征一一对应的多个基 分类器, 以及 每个基分类器在训练集上预测得到的预测结果, 并基于预测结果训练分类器得到元分类器; 将待 检测邮件的多维度特征中每个维度的特征分别 输入至相应的基 分类器得到多个子预测结果, 将 该多个子预测结果输入至元分类器得到待检测 邮件是否为钓鱼邮件的总检测结果。 本申请能够 提高邮件检测的鲁棒性和泛化性, 进而有效提高 邮件检测的准确性。 权利要求书2页 说明书9页 附图1页 CN 114499980 A 2022.05.13 CN 114499980 A 1.一种钓鱼邮件检测方法, 其特 征在于, 包括: 获取邮件数据集, 提取所述 邮件数据集中各邮件的多维度特征, 得到包含有所述 邮件 数据集中各邮件的多维度特征的特征数据集, 并获取所述特征数据集中包含的部分多维度 特征为训练集; 采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训练预测分类器, 得 到与每个维度的特征一一对应的多个基分类器, 以及每个基分类器在所述训练集上预测得 到的预测结果, 并基于所述预测结果训练分类 器得到元分类 器; 将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基分类器得到多个 子预测结果, 将该多个子预测结果输入至所述元分类器得到所述待检测邮件是否为钓鱼邮 件的总检测结果。 2.根据权利要求1所述的方法, 其特征在于, 提取所述邮件数据集中各邮件的多维度 特 征, 包括: 对所述邮件数据集中的各邮件分别进行解析, 以提取所述邮件数据集中各邮件包含的 字段数据, 并从所述字段数据中提取各邮件的域名特征、 链接特征、 邮件文本特征及邮件附 件特征作为相应的多维度特 征。 3.根据权利要求2所述的方法, 其特征在于, 提取所述邮件数据集中各邮件的多维度 特 征之后, 还 包括: 对提取的所述邮件数据集中各邮件的多维度 特征进行缺失值填充处理, 并对完成缺失 值填充处理的多维度特 征进行标准化处理。 4.根据权利要求3所述的方法, 其特征在于, 训练得到每个所述基分类器及所述元分类 器之后, 还 包括: 通过交叉验证方式对每 个所述基分类 器及所述元分类 器进行参数调优。 5.根据权利要求4所述的方法, 其特征在于, 通过交叉验证方式对每个所述基分类器及 所述元分类 器进行参数调优之后, 还 包括: 在所述训练集上对每个所述基分类器进行训练, 并基于在所述训练集上对每个所述基 分类器进行训练时的预测结果对所述元分类 器进行训练。 6.根据权利要求5所述的方法, 其特 征在于, 基于所述特 征数据集中得到训练集, 包括: 将所述特 征数据集分为训练集及测试集; 相应的, 基于在所述训练集上对每个所述基分类器进行训练时的预测结果对所述元分 类器进行训练之后, 还 包括: 利用每个所述基分类器在所述测试集上进行测试, 并基于利用每个所述基分类器在所 述测试集上进行测试时的预测结果对所述元分类器进行测试, 得到相应的准确率及误报 率, 如果所述准确率及所述误报率符合要求, 则确定完成分类器的训练, 否则, 输出相应的 错误提示。 7.根据权利要求6所述的方法, 其特征在于, 所述域名特征包括相应邮件中发件人、 收 件人和所有链接中的域名信息, 所述链接特征包括相 应邮件中所有链接的字符串, 所述邮 件文本特征包括相应邮件中邮件标题及邮件正文的内容, 所述邮件附件特征包括相应邮件 的附件在运行时的网络行为信息 。 8.一种钓鱼邮件检测装置, 其特 征在于, 包括:权 利 要 求 书 1/2 页 2 CN 114499980 A 2提取模块, 用于: 获取邮件数据集, 提取所述邮件数据集中各邮件的多维度特征, 得到 包含有所述邮件数据集中各邮件的多维度特征的特征数据集, 并获取所述特征数据集中包 含的部分多维度特 征为训练集; 训练模块, 用于: 采用交叉训练预测的方式利用所述训练集中每个维度的特征分别训 练预测分类器, 得到与每个维度的特征一一对应的多个基分类器, 以及每个基分类器在所 述训练集上 预测得到的预测结果, 并基于所述预测结果训练分类 器得到元分类 器; 检测模块, 用于: 将待检测邮件的多维度特征中每个维度的特征分别输入至相应的基 分类器得到多个子预测结果, 将该多个子预测结果输入至所述元分类器得到所述待检测邮 件是否为钓鱼邮件的总检测结果。 9.一种钓鱼邮件检测设备, 其特 征在于, 包括: 存储器, 用于存 储计算机程序; 处理器, 用于执行所述计算机程序时实现如权利要求1至7任一项所述钓鱼邮件检测方 法的步骤。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质上存储有计算机 程序, 所述计算机程序被处理器执行时实现如权利要求 1至7任一项 所述钓鱼邮件检测方法 的步骤。权 利 要 求 书 2/2 页 3 CN 114499980 A 3

.PDF文档 专利 一种钓鱼邮件检测方法、装置、设备及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种钓鱼邮件检测方法、装置、设备及存储介质 第 1 页 专利 一种钓鱼邮件检测方法、装置、设备及存储介质 第 2 页 专利 一种钓鱼邮件检测方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:43:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。