说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111660942.9 (22)申请日 2021.12.3 0 (71)申请人 西南科技大 学 地址 621000 四川省绵阳市涪城区青龙 大 道中段59号 (72)发明人 马强 高建平 邢玲 张琦  吴红海 戴军  (74)专利代理 机构 成都行之智 信知识产权代理 有限公司 5125 6 专利代理师 温利平 (51)Int.Cl. G06K 9/62(2022.01) G06Q 50/00(2012.01) (54)发明名称 基于网格聚类和时空特征的社交网络用户 匹配方法 (57)摘要 本发明公开了一种基于网格聚类和时空特 征的社交网络用户匹配方法, 首先从待匹配用户 对的两个社交网络中获取若干对已知为同一用 户的用户对作为种子用户对, 通过种子用户对获 取负例用户对, 共同作为样本用户对, 获取各个 用户签到记录, 基于网格聚类获取每个用户的合 格网格簇, 从用户的签到记录中提取出时空特 征, 包括用户签到平稳度、 用户签到偏好时间和 用户轨迹锚点, 计算用户对的用户合格网格簇相 似度、 用户签到平稳度相似度、 用户签到偏好时 间相似度以及用户轨迹锚点相似度, 构建用户匹 配模型并采用样本用户对的数据进行训练, 将待 匹配用户对的数据输入训练好的用户匹配模型, 得到匹配结果。 本发明可以在签到数据不平衡情 况下实现用户匹配 。 权利要求书5页 说明书12页 附图3页 CN 115238757 A 2022.10.25 CN 115238757 A 1.一种基于网格聚类和时空特征的社交网络用户匹配方法, 其特征在于包括以下步 骤: S1: 在需要对分属两个社交网络A、 B的两个用户 进行用户匹配时, 记该用户对 为 从两个社交网络中获取若干对已知为同一用户的用户对作为种子用户对, 设置其 匹配得分为1; 然后 从种子用户对中将属于社交网络A的某个用户与属于社交网络B的其他 用户进行随机配对得到负例用户对, 设置其匹配得分为0; 将种子用户对和负例用户对均作 为样本用户对, 记样本用户对的数量为M, 第m ′个样本用户对 中属于社交网络A的用户 为 第m′个样本用户对中属于社交网络B的用户为 m′=1,2,…,M; 对于每个用户 i∈{A,B}, m=0,1,2, …,M, 获取该用户在所属社交网络发布的签到 记录集合 记签到记录集合中每条签到记录为 其中 表示用户 第j条签到记 录中的坐标经度、 坐标纬度, ti,j表示用户 第j条 签到记录中的时间戳, 表示用户 的签到记录集合 中的签到记录数 量; S2: 基于网格聚类获取每 个用户的合格网格簇, 具体方法包括以下步骤: S2.1: 将用户 的签到记录集合 合并得到集合S0, 从集合S0中所有签到 记录中获取经度最小 值lonmin、 经度最大值lonmax和纬度最小值latmin、 纬度最大值latmax, 然 后将经度 至 纬度 至 的区域作 为公共区域, 其中 表示预设的经度偏差, 表示预设的纬度偏差; S2.2: 将步骤S2.1得到的公共区域的经纬度 分别进行K等距划分, 得到包含K2个网格的 网格阵列, 然后对于每 个签到记录集 合 确定该签到记录集 合 中落个每个网格的签到 记录数量作为用户 在对应网格 的签到密度; 将签到密度大于0的网格作为有效网格, 对 于每个用户筛选出有效网格构建得到网格集合, 记用户 的有效网格数量为 所构 成的网格集合为 其中 表示用 户 的第d个有效 网格在网格阵列中的坐标, 表示用户 的第d个有效网格 的签到密度; S2.3: 对于每个用户 根据坐标对网格集合 中的所有网格进行聚类, 记聚类得到 的网格簇数量为 记网格簇集合为 其中 表示用户 的第q个网格簇, S2.4: 对于每个用户 所对应的网格簇集合 计算得到权 利 要 求 书 1/5 页 2 CN 115238757 A 2每个网格簇 中用户 的签到密度均值作为该网格簇 的签到密度 判断是否 签到密度 如果是, 则判定网格簇 为合格网格簇, 否则记与用户 属于同一用 户对 的用户为 其网格集合为 对于用户 的每个网格簇 计算网 格簇 中每个网格与网格集合 中每个网格在网格阵列中的坐标距离, 如果有任意 一对网格的距离小于预设阈值, 则判定网格簇 为合格网格簇, 否则判定网格簇 不 为合格网格簇; 记用户 所对应的合格网格簇集合为 其中 表示用户 的第v个合格网格簇, S3: 从用户的签到记录 中提取出时空特征, 包括用户签到平稳度、 用户签到偏好时间和 用户轨迹锚点, 每 个时空特 征的提取 方法如下: 1)用户签到平稳度: 对于每个用户 从其所有签到记录为 中 提 取 出 时 间 戳 序 列 计 算 出 相 邻 两 个 时 间 戳 的 时 间 差 得到时间差序列 计算时间差序列 的变异系数 作为用户 的签到 平稳度; 2)用户签到偏好时间: 将每天划分为H个时间区间, 对于每个用户 根据其时间戳序 列 得到每个时间区间的签到数量 h=1,2,…,H, 将时间区间按 照签到数量从大到小排序, 筛选出签到数量最多的Z个时间段作为用户 的签到偏好时 间, 记其时间区间序号分别为 z=1,2,…,Z; 3)用户轨迹锚点: 对于用户 和用户 记其时间戳序列 和 对于任意两个时间戳 和 其中 如果满足 Δt表示预设的时间差阈 值, 如果是, 则判定时间戳 和 为合格时间戳对, 将该时间戳对 作为轨迹 锚点存放至时间戳对集 合Tm,pair中, 否则不作任何操作; S4: 计算用户对的多属性相似度, 包括用户合格网格簇相似度、 用户签到平稳度相似 度、 用户签到偏好时间相似度以及用户轨迹锚点相似度, 每个属 性相似度的具体计算方法 如下: 1) 用 户合格网 格簇 相似 度 : 对于 用 户 获取其合格网 格簇集合权 利 要 求 书 2/5 页 3 CN 115238757 A 3

.PDF文档 专利 基于网格聚类和时空特征的社交网络用户匹配方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于网格聚类和时空特征的社交网络用户匹配方法 第 1 页 专利 基于网格聚类和时空特征的社交网络用户匹配方法 第 2 页 专利 基于网格聚类和时空特征的社交网络用户匹配方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:43:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。