说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210640830.5 (22)申请日 2022.06.08 (71)申请人 钱塘科技创新中心 地址 310018 浙江省杭州市钱塘新区白杨 街道23号大街10 02号5号楼 申请人 王亮 (72)发明人 王亮 胡倩 王浩宇 高玉华  童欢庆 张骁越  (74)专利代理 机构 广州鼎贤知识产权代理有限 公司 44502 专利代理师 刘莉梅 (51)Int.Cl. G06F 16/951(2019.01) G06F 40/284(2020.01) G06F 40/30(2020.01)G06N 5/02(2006.01) (54)发明名称 基于活动对象信息挖掘的智能追踪方法与 系统 (57)摘要 本发明公开了基于活动对象信息挖掘的智 能追踪方法与系统, 所述方法包括: 采集活动对 象的属性信息并存储, 其中, 所述属性信息包括 行为、 生理信息中的一种或组合; 提取活动对象 属性信息中的语义信息, 根据所述语义信息构建 活动对象的知识图谱; 基于知识图谱 数据进行活 动对象的倾向性预测, 根据倾向性预测结果实现 活动对象。 本发 明通过基于引接的爬虫数据进行 开源数据采集, 采集内容主要面向新闻、 社交媒 体数据, 同时调用各类核心算法进行知识图谱构 建, 应用内外部数据, 通过算法模型的搭建及调 用, 贯通整个业务链条, 实现了对活动对象的全 方位态势跟踪。 权利要求书2页 说明书18页 附图4页 CN 114996549 A 2022.09.02 CN 114996549 A 1.基于活动对象信息挖掘的智能追踪方法, 其特 征在于, 所述方法包括: 采集活动对象的属性信 息并存储, 其中, 所述属性信息包括行为、 生理信息 中的一种或 组合; 提取活动对象属性信息中的语义信息, 根据所述语义信息构建活动对象的知识图谱; 基于知识图谱数据进行活动对象的倾向性预测, 根据倾向性预测结果实现活动对象。 2.根据权利要求1所述的基于活动对象信 息挖掘的智能追踪方法, 其特征在于, 所述采 集活动对象的属性信息, 包括: Kubernetes集群分发数据采集任务至Docker集群中的目标Docker, 其中, 分布式云爬 虫平台的Docker集群部署并运行于Kubernetes集群上, 所述Docker集群和所述Kubernetes 集群均位于云端; 所述目标Docker启动网络爬虫云服务, 以使所述网络爬虫云服务根据数据采集任务从 互联网中抓取活动对象 的属性信息, 其中, 所述网络爬虫云服务包括: 网页请求云服务和无 头浏览器云服 务。 3.根据权利要求2所述的基于活动对象信息挖掘的智能追踪方法, 其特征在于, 所述 Docker包括: 调度模块、 采集模块、 解析模块和存 储模块; 所述调度模块调度所述采集模块从互联网中抓取活动对象的属性信 息, 所述采集模块 发送抓取的数据至所述解析模块进行解析, 所述解析模块将解析后的数据发送至所述存储 模块并反馈 至所述调度模块。 4.根据权利要求1所述的基于活动对象信 息挖掘的智能追踪方法, 其特征在于, 活动对 象属性信息的存 储方法包括: 获取每一应用的属性信息, 并提取 所获取的属性信息的关键词序列; 对所述关键词序列中的近义词进行识别, 并将所识别的语义相近的关键词作为一个集 合; 基于语义相近的关键词的相似度, 确定每一 集合中的代 表词; 以代表词替换所有关键词序列中的对应于集合中的关键词, 得到更新后的关键词序 列; 获取每一应用的属性信息, 并将每一类型 数据转换为文本; 对每一类型 数据对应的文本进行关键词提取, 获得对应的关键词序列; 使用更新后的关键词序列 作为对应属性信息的属性信息 。 5.根据权利要求4所述的基于活动对象信 息挖掘的智能追踪方法, 其特征在于, 在所述 属性信息为视频 数据时; 所述将每一类型 数据转换为文本的步骤, 包括: 对该类型数据进行分割, 获得音频数据和图像数据, 其中, 所述图像数据包括每一帧图 像中的图像特 征; 将所述音频 数据和图像数据转换为文本数据。 6.根据权利要求1所述的基于活动对象信 息挖掘的智能追踪方法, 其特征在于, 所述提 取活动对象属性信息中的语义信息, 包括: 接收属性信息, 其中, 所述属性信息包括: 结构化数据和/或非结构化数据; 对所述属性信息进行语义抽取, 得到抽取后的语义信息; 根据所述语义信 息和抽取规则, 抽取知识图谱可识别的实体和关系; 其中, 所述抽取规权 利 要 求 书 1/2 页 2 CN 114996549 A 2则包括: 实体类型识别规则, 其中, 所述实体类型识别规则的更新基于增量式聚类方法实 现。 7.根据权利要求6所述的基于活动对象信 息挖掘的智能追踪方法, 其特征在于, 所述根 据所述语义信息和抽取规则, 抽取知识图谱可识别的实体和关系, 包括: 根据所述语义信息, 获得 所述语义信息对应的依存语法结构; 根据所述依存语法结构, 确定所述依存语法结构对应的依存树, 其中, 所述依存树包 括: 对应实体的节点和对应实体间的依存关系的依存弧; 根据所述依存树和抽取规则, 识别所述实体和所述依存关系的类型, 获得知识图谱可 识别的实体和关系。 8.根据权利要求7所述的基于活动对象信 息挖掘的智能追踪方法, 其特征在于, 所述增 量式聚类方法包括: 确定实体相似度阈值、 子实体 类型阈值和时间片段的长度; 获取新时间片段内的实体特 征, 将所述实体特 征传给MapReduce函数; 基于实体相似度、 所述MapReduce函数, 输出新产生的实体类型、 子实体类型编号和特 征向量, 并更新已有实体类型和子实体类型 的特征向量, 添加 新产生的实体类型和子实体 类型。 9.根据权利要求1所述的基于活动对象信 息挖掘的智能追踪方法, 其特征在于, 应用于 高并发分流系统中的协调器, 所述系统包括: 两两通信的代理器、 协调器、 数据库服务器, 且 所述数据库服 务器包括主服 务器、 从服 务器以及当前 备份服务器, 所述方法包括: 接收应用服务器发来的交互请求, 将交互请求分类为读请求和写请求; 将读请求发送 至从服务器, 将写请求发送至主服 务器; 根据交互请求的知识图谱数据被读写的次数, 从各个主服务器以及各个从服务器 中筛 选出高频访问数据, 将所述高频访问数据备份到当前 备份服务器中; 在主服务器中的服务器之一负载超限时将当前备份服务器转为主服务器使用; 在从服 务器中的服 务器之一负载超限时, 将当前 备份服务器转为从服务器使用。 10.基于活动对象信息挖掘的智能追踪系统, 其特 征在于, 所述系统包括: 采集模块, 用于采集活动对象的属性信息并存储, 其中, 所述属性信息包括行为、 生理 信息中的一种或组合; 提取模块, 用于提取活动对象属性信息中的语义信息, 根据所述语义信息构建活动对 象的知识图谱; 跟踪模块, 用于基于知识图谱数据进行活动对象的倾向性预测, 根据倾向性预测结果 实现活动对象。权 利 要 求 书 2/2 页 3 CN 114996549 A 3

.PDF文档 专利 基于活动对象信息挖掘的智能追踪方法与系统

文档预览
中文文档 25 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共25页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于活动对象信息挖掘的智能追踪方法与系统 第 1 页 专利 基于活动对象信息挖掘的智能追踪方法与系统 第 2 页 专利 基于活动对象信息挖掘的智能追踪方法与系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:11:54上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。