(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111616516.5
(22)申请日 2021.12.27
(65)同一申请的已公布的文献号
申请公布号 CN 114330331 A
(43)申请公布日 2022.04.12
(73)专利权人 北京天融信网络安全技 术有限公
司
地址 100085 北京市海淀区上地 东路1号院
3号楼四层
专利权人 北京天融信科技有限公司
北京天融信软件 有限公司
(72)发明人 李雪莹 鲍青波 万卉 张楠
王煜
(74)专利代理 机构 北京超凡宏宇专利代理事务
所(特殊普通 合伙) 11463
专利代理师 杨奇松
(51)Int.Cl.
G06F 40/284(2020.01)
G06F 16/955(2019.01)H04L 9/40(2022.01)
(56)对比文件
US 20152 95942 A1,2015.10.15
CN 111400705 A,2020.07.10
CN 108881138 A,2018.1 1.23
CN 110569496 A,2019.12.13
CN 113761218 A,2021.12.07
CN 113051876 A,2021.0 6.29
CN 113221032 A,2021.08.0 6
US 2018375896 A1,2018.12.27
CN 112765428 A,2021.0 5.07
CN 113688240 A,2021.1 1.23
CN 113468315 A,2021.10.01
麻瓯勃 等.基 于半监督学习的恶意URL检测
方法. 《计算机系统应用》 .2020,第1-10页. (续)
审查员 刘佳
(54)发明名称
一种链接中分词重要度确定方法和装置
(57)摘要
本申请提供一种链接中分词重要度确定方
法和装置, 该方法包括对目标链接文本进行分词
处理, 获得分词序列; 根据多个分词生成每个分
词对应的邻域信息, 其中, 每个分词对应的邻域
信息通过所述分词和所述分词的排序前N个分词
和排序后N个分词构成; 根据每个分词对应的邻
域信息生 成每个分词对应的多个剩余邻域信息;
根据每一剩余邻域信息结合对应邻域信息以外
的其他分词生成每个分词对应的多个更新链接
文本, 其中, 该多个更新链接文本包括具有分词
的更新链接文本和不具有分词的更新链接文本;
对每个分词对应的多个更新链接文本进行恶意
链接检测, 并根据检测结果确定目标链接文本中
分词重要度, 从而确定目标链接文本中每个分词的重要性。
[转续页]
权利要求书2页 说明书9页 附图6页
CN 114330331 B
2022.09.16
CN 114330331 B
(56)对比文件
Nan Zhang 等.De ep learn ing feature
exploration for Andro id malware detection. 《Applied Soft Computi ng
Journal》 .2021,第1-7页.2/2 页
2[接上页]
CN 114330331 B1.一种链接中分词重要度确定方法, 其特 征在于, 所述方法包括:
对目标链接文本进行分词处理, 获得分词序列, 所述分词序列包括依次排序的多个分
词;
根据多个分词生成每个分词对应的邻域信息, 其中, 每个分词对应的邻域信息通过所
述分词和所述分词的排序前N个分词和排序后N个分词构成;
根据每个分词对应的邻域信息生成每个分词对应的多个剩余邻域信息, 其中, 每个分
词对应的剩余邻域信息通过删除对应的邻域信息中的预设个分词获得;
根据每一剩余邻域信息结合对应邻域信息以外的其他分词生成每个分词对应的多个
更新链接文本, 其中, 所述多个更新链接文本包括具有所述分词的更新链接文本和 不具有
所述分词的更新链接文本;
对每个分词对应的多个更新链接文本进行恶意链接检测, 并根据检测结果确定所述目
标链接文本中分词重要度。
2.根据权利要求1所述的方法, 其特征在于, 所述对每个分词对应的多个更新链接文本
进行恶意链接检测, 并根据检测结果确定所述目标链接文本中分词重要度, 包括:
对每个分词对应的多个更新链接文本进行恶意链接检测, 获得每个分词对应的多个更
新链接文本中每 个更新链接文本的更新检测结果;
计算和所述目标链接文本的原始检测结果相同的具有所述分词的更新链接文本的第
一数量; 以及计算和所述目标链接文本的原始检测结果不相同的不具有 所述分词的更新链
接的第二数量;
根据所述第一数量和第二数量计算对应分词对于所述目标链接文本的重要度。
3.根据权利要求2所述的方法, 其特征在于, 所述对每个分词对应的多个更新链接文本
进行恶意链接检测, 获得每个分词对应的多个更新链接文本中每个更新链接文本的更新检
测结果, 包括:
将每个分词对应的每个更新链接文本输入预设的恶意链接检测模型中, 获得所述恶意
链接检测模型输出的每个分词对应的多个更新链接文本中每个更新链接文本的更新检测
结果。
4.根据权利要求3所述的方法, 其特征在于, 在所述计算和所述目标链接文本的原始检
测结果相同的具有所述分词的更新链接文本的第一数量之前, 所述方法还 包括:
将所述目标链接文本输入所述预设的恶意链接检测模型中, 获得所述恶意链接检测模
型输出的所述目标链接文本的检测结果, 获得 所述原始检测结果。
5.根据权利要求1所述的方法, 其特征在于, 所述根据多个分词生成每个分词对应的邻
域信息, 包括:
针对所述分词序列中的每个分词, 提取所述分词和所述分词排序前的N个分词和排序
后的N个分词构成所述分词对应的邻域信息, 获得多个分词中每 个分词对应的邻域信息 。
6.根据权利要求5所述的方法, 其特 征在于, 所述方法还 包括:
若所述分词排序 前或排序后的分词数量小于N, 则计算排序 前或排序后的分词数量与N
的数量差值;
将所述数量差值个数的预设字符添加在所述分词的排序之前或排序之后。
7.根据权利要求1所述的方法, 其特征在于, 所述根据每个分词对应的邻域信 息生成每权 利 要 求 书 1/2 页
2
CN 114330331 B
3
专利 一种链接中分词重要度确定方法和装置
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:05:26上传分享