说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210252888.2 (22)申请日 2022.03.15 (65)同一申请的已公布的文献号 申请公布号 CN 114328847 A (43)申请公布日 2022.04.12 (73)专利权人 深圳市一 号互联科技有限公司 地址 518000 广东省深圳市南 山区粤海街 道高新区社区沙河西路1819号深圳湾 科技生态园7栋B21 1 (72)发明人 周柳阳 蒋林林  (74)专利代理 机构 深圳汉林汇融知识产权代理 事务所(普通 合伙) 44850 专利代理师 刘临利 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/338(2019.01) G06F 16/36(2019.01) G06F 16/9535(2019.01) G06F 16/9536(2019.01) G06F 16/9538(2019.01) G06Q 30/02(2012.01) (56)对比文件 CN 114040012 A,202 2.02.11 CN 110704743 A,2020.01.17 US 7548910 B1,20 09.06.16 CN 103885971 A,2014.0 6.25 审查员 王爽 (54)发明名称 一种基于知识图谱的数据处 理方法及系统 (57)摘要 本发明涉及数据处理技术领域, 具体公开了 一种基于知识图谱的数据处理方法及系统, 所述 方法包括接收用户输入的查询语句, 对所述查询 语句进行内容识别, 确定待检字表; 根据训练好 的映射关系将所述待检字表转换为参考字表, 基 于所述参考字表遍历预设的查询数据库, 查询所 述参考字表中各元素的查询指标; 获取用户的账 户信息, 基于所述账户信息确定相关用户, 基于 相关用户的查询记录, 根据所述查询记录确定参 考字表的扩充表; 最终生成查询图谱。 本发明对 用户输入查询语句进行内容识别, 然后获取用户 的账户信息, 确定相关用户, 确定扩充表, 进而 生 成查询图谱, 提供了更加契合用户的推送内容。 权利要求书2页 说明书9页 附图6页 CN 114328847 B 2022.05.24 CN 114328847 B 1.一种基于知识图谱的数据处 理方法, 其特 征在于, 所述方法包括: 接收用户输入的含有查询语句的查询请求, 对所述查询语句进行内容识别, 确定待检 字表; 其中, 所述 查询语句的尾部为语句标签; 根据训练好的映射关系将所述待检字表转换为参考字表, 基于所述参考字表遍历预设 的查询数据库, 查询所述 参考字表中各 元素的查询指标; 获取用户的账户信息, 基于所述账户信息确定相关用户, 读取相关用户的含有时间信 息的查询记录, 根据所述 查询记录确定参 考字表的扩充表; 根据查询 指标确定待检字表各元素的权重, 根据 所述权重和所述扩充表生成并显示查 询图谱; 所述读取相关用户的含有时间信 息的查询记录, 根据所述查询记录确定参考字表的扩 充表的步骤 包括: 获取相关用户的账户信 息, 根据所述账户信 息获取相关用户的查询记录; 其中, 所述查 询记录含有时间信息, 所述 查询记录为 通过训练好的映射关系转换后的查询记录; 根据所述 时间信息对同一相关用户的查询记录进行排序, 在排序后的查询记录 中定位 出现在所述 参考字表中的查询内容, 作为目标字; 以目标字为中心在所述 排序后的查询记录中提取 预设数量的查询内容; 根据提取到的查询内容扩充所述 参考字表; 所述根据提取到的查询内容扩充所述 参考字表的步骤 包括: 计算提取到的查询内容与目标字之间的时间差; 根据预设的转换公式将所述时间差转换为 步长; 建立以所述目标字为索引的扩充表; 所述扩充表中包 含查询内容项与步长项; 其中, 所述目标字为 查询记录与参 考字表中相同的元 素。 2.根据权利要求1所述的基于知识图谱的数据处理方法, 其特征在于, 所述接收用户输 入的含有查询语句的查询请求, 对所述 查询语句进行内容识别, 确定待检字表的步骤 包括: 接收用户输入的含有查询语句的查询请求, 根据查询语句的语句标签确定语句架构; 读取查询语句, 将所述查询语句和所述语句架构输入训练好的词性分析模型, 得到含 有词性标记的查询语句; 将所述含有词性标记的查询语句输入训练好的敏感分析模型, 根据敏感分析结果对所 述查询语句进行内容 转换; 根据词性标记提取内容 转换后的查询语句中的关键词, 确定待检字表。 3.根据权利要求1所述的基于知识图谱的数据处理方法, 其特征在于, 所述根据训练好 的映射关系将所述待检字表转换为参考字表, 基于所述参考字表遍历预设的查询数据库, 查询所述 参考字表中各 元素的查询指标的步骤 包括: 依次提取 所述待检字表中的元 素, 基于该 元素遍历训练好的近义词库, 提取近义词组; 根据预设的提取规则在所述近义词组中提取近义词, 作为该 元素的参考字; 统计所述 参考字, 得到参 考字表; 基于所述参考字表遍历预设的查询数据库, 查询所述参考字表中各元素的查询频率与 最近查询时间; 其中, 所述 查询数据库的元 素项由所述预设的提取规则确定 。权 利 要 求 书 1/2 页 2 CN 114328847 B 24.根据权利要求1所述的基于知识图谱的数据处理方法, 其特征在于, 所述获取用户的 账户信息, 基于所述账户信息确定相关用户的步骤 包括: 获取用户的账户信息中的身份信息, 根据所述身份信息确定用户检测范围; 获取用户的账户信息中的浏览信息, 根据所述浏览信息确定用户类型; 在所述用户检测范围内根据所述用户类型查询 相关用户, 得到相关用户表; 获取用户的账户信息中的社交信息, 根据所述社交信息对所述相关用户表进行修 正。 5.根据权利要求4所述的基于知识图谱的数据处理方法, 其特征在于, 所述获取用户的 账户信息中的社交信息, 根据所述社交信息对所述相关用户表进行修 正的步骤 包括: 获取用户终端的读取权限, 基于所述读取权限获取各App在预设时间范围内的屏幕占 用时间; 基于所述屏幕占用时间提取 预设数量的Ap p, 获取提取到的Ap p中的通讯列表; 读取所述相关用户表, 将所述相关用户表与所述通讯列表进行逻辑运算, 确定通讯列 表与相关用户表之间的重复用户和非重复用户; 在相关用户表中标记重复用户, 将非重复用户插 入相关用户表。 6.一种基于知识图谱的数据处 理系统, 其特 征在于, 所述系统包括: 待检字表确定模块, 用于接收用户输入的含有查询语句的查询请求, 对所述查询语句 进行内容识别, 确定待检字表; 其中, 所述 查询语句的尾部为语句标签; 查询指标确定模块, 用于根据训练好的映射关系将所述待检字表转换为参考字表, 基 于所述参考字表遍历预设的查询数据库, 查询所述 参考字表中各 元素的查询指标; 扩充表确定模块, 用于获取用户的账户信 息, 基于所述账户信 息确定相关用户, 读取相 关用户的含有时间信息的查询记录, 根据所述 查询记录确定参 考字表的扩充表; 查询图谱生成模块, 用于根据查询指标确定待检字表各元素的权重, 根据所述权重和 所述扩充表生成并显示 查询图谱; 所述扩充表确定模块包括: 记录查询单元, 用于获取相关用户的账户信息, 根据所述账户信息获取相关用户的查 询记录; 其中, 所述查询记录含有时间信息, 所述查询记录为通过训练好的映射关系转换后 的查询记录; 排序单元, 用于根据所述时间信息对 同一相关用户的查询记录进行排序, 在排序后的 查询记录中定位出现在所述 参考字表中的查询内容, 作为目标字; 内容提取单元, 用于以目标字为中心在所述排序后的查询记录中提取预设数量的查询 内容; 处理执行单元, 用于根据提取到的查询内容扩充所述 参考字表; 所述处理执行单元包括: 计算子单 元, 用于计算 提取到的查询内容与目标字之间的时间差; 转换子单 元, 用于根据预设的转换公式将所述时间差转换为 步长; 建表子单元, 用于建立以所述目标字为索引的扩充表; 所述扩充表中包含查询内容项 与步长项; 其中, 所述目标字为 查询记录与参 考字表中相同的元 素。权 利 要 求 书 2/2 页 3 CN 114328847 B 3

.PDF文档 专利 一种基于知识图谱的数据处理方法及系统

文档预览
中文文档 18 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于知识图谱的数据处理方法及系统 第 1 页 专利 一种基于知识图谱的数据处理方法及系统 第 2 页 专利 一种基于知识图谱的数据处理方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:52:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。