专利一种基于知识图谱的数据处理方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210252888.2 (22)申请日 2022.03.15 (65)同一申请的已公布的文献号申请公布号 CN 114328847 A (43)申请公布日 2022.04.12 (73)专利权人深圳市一号互联科技有限公司地址 518000 广东省深圳市南山区粤海街道高新区社区沙河西路1819号深圳湾科技生态园7栋B21 1 (72)发明人周柳阳　蒋林林　 (74)专利代理机构深圳汉林汇融知识产权代理事务所(普通合伙) 44850 专利代理师刘临利 (51)Int.Cl. G06F 16/33(2019.01)G06F 16/338(2019.01) G06F 16/36(2019.01) G06F 16/9535(2019.01) G06F 16/9536(2019.01) G06F 16/9538(2019.01) G06Q 30/02(2012.01) (56)对比文件 CN 114040012 A,202 2.02.11 CN 110704743 A,2020.01.17 US 7548910 B1,20 09.06.16 CN 103885971 A,2014.0 6.25 审查员王爽 (54)发明名称一种基于知识图谱的数据处理方法及系统 (57)摘要本发明涉及数据处理技术领域，具体公开了一种基于知识图谱的数据处理方法及系统，所述方法包括接收用户输入的查询语句，对所述查询语句进行内容识别，确定待检字表；根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标；获取用户的账户信息，基于所述账户信息确定相关用户，基于相关用户的查询记录，根据所述查询记录确定参考字表的扩充表；最终生成查询图谱。本发明对用户输入查询语句进行内容识别，然后获取用户的账户信息，确定相关用户，确定扩充表，进而生成查询图谱，提供了更加契合用户的推送内容。权利要求书2页说明书9页附图6页 CN 114328847 B 2022.05.24 CN 114328847 B 1.一种基于知识图谱的数据处理方法，其特征在于，所述方法包括：接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表；其中，所述查询语句的尾部为语句标签；根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标；获取用户的账户信息，基于所述账户信息确定相关用户，读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表；根据查询指标确定待检字表各元素的权重，根据所述权重和所述扩充表生成并显示查询图谱；所述读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表的步骤包括：获取相关用户的账户信息，根据所述账户信息获取相关用户的查询记录；其中，所述查询记录含有时间信息，所述查询记录为通过训练好的映射关系转换后的查询记录；根据所述时间信息对同一相关用户的查询记录进行排序，在排序后的查询记录中定位出现在所述参考字表中的查询内容，作为目标字；以目标字为中心在所述排序后的查询记录中提取预设数量的查询内容；根据提取到的查询内容扩充所述参考字表；所述根据提取到的查询内容扩充所述参考字表的步骤包括：计算提取到的查询内容与目标字之间的时间差；根据预设的转换公式将所述时间差转换为步长；建立以所述目标字为索引的扩充表；所述扩充表中包含查询内容项与步长项；其中，所述目标字为查询记录与参考字表中相同的元素。 2.根据权利要求1所述的基于知识图谱的数据处理方法，其特征在于，所述接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表的步骤包括：接收用户输入的含有查询语句的查询请求，根据查询语句的语句标签确定语句架构；读取查询语句，将所述查询语句和所述语句架构输入训练好的词性分析模型，得到含有词性标记的查询语句；将所述含有词性标记的查询语句输入训练好的敏感分析模型，根据敏感分析结果对所述查询语句进行内容转换；根据词性标记提取内容转换后的查询语句中的关键词，确定待检字表。 3.根据权利要求1所述的基于知识图谱的数据处理方法，其特征在于，所述根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标的步骤包括：依次提取所述待检字表中的元素，基于该元素遍历训练好的近义词库，提取近义词组；根据预设的提取规则在所述近义词组中提取近义词，作为该元素的参考字；统计所述参考字，得到参考字表；基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询频率与最近查询时间；其中，所述查询数据库的元素项由所述预设的提取规则确定。权　利　要　求　书 1/2 页 2 CN 114328847 B 24.根据权利要求1所述的基于知识图谱的数据处理方法，其特征在于，所述获取用户的账户信息，基于所述账户信息确定相关用户的步骤包括：获取用户的账户信息中的身份信息，根据所述身份信息确定用户检测范围；获取用户的账户信息中的浏览信息，根据所述浏览信息确定用户类型；在所述用户检测范围内根据所述用户类型查询相关用户，得到相关用户表；获取用户的账户信息中的社交信息，根据所述社交信息对所述相关用户表进行修正。 5.根据权利要求4所述的基于知识图谱的数据处理方法，其特征在于，所述获取用户的账户信息中的社交信息，根据所述社交信息对所述相关用户表进行修正的步骤包括：获取用户终端的读取权限，基于所述读取权限获取各App在预设时间范围内的屏幕占用时间；基于所述屏幕占用时间提取预设数量的Ap p，获取提取到的Ap p中的通讯列表；读取所述相关用户表，将所述相关用户表与所述通讯列表进行逻辑运算，确定通讯列表与相关用户表之间的重复用户和非重复用户；在相关用户表中标记重复用户，将非重复用户插入相关用户表。 6.一种基于知识图谱的数据处理系统，其特征在于，所述系统包括：待检字表确定模块，用于接收用户输入的含有查询语句的查询请求，对所述查询语句进行内容识别，确定待检字表；其中，所述查询语句的尾部为语句标签；查询指标确定模块，用于根据训练好的映射关系将所述待检字表转换为参考字表，基于所述参考字表遍历预设的查询数据库，查询所述参考字表中各元素的查询指标；扩充表确定模块，用于获取用户的账户信息，基于所述账户信息确定相关用户，读取相关用户的含有时间信息的查询记录，根据所述查询记录确定参考字表的扩充表；查询图谱生成模块，用于根据查询指标确定待检字表各元素的权重，根据所述权重和所述扩充表生成并显示查询图谱；所述扩充表确定模块包括：记录查询单元，用于获取相关用户的账户信息，根据所述账户信息获取相关用户的查询记录；其中，所述查询记录含有时间信息，所述查询记录为通过训练好的映射关系转换后的查询记录；排序单元，用于根据所述时间信息对同一相关用户的查询记录进行排序，在排序后的查询记录中定位出现在所述参考字表中的查询内容，作为目标字；内容提取单元，用于以目标字为中心在所述排序后的查询记录中提取预设数量的查询内容；处理执行单元，用于根据提取到的查询内容扩充所述参考字表；所述处理执行单元包括：计算子单元，用于计算提取到的查询内容与目标字之间的时间差；转换子单元，用于根据预设的转换公式将所述时间差转换为步长；建表子单元，用于建立以所述目标字为索引的扩充表；所述扩充表中包含查询内容项与步长项；其中，所述目标字为查询记录与参考字表中相同的元素。权　利　要　求　书 2/2 页 3 CN 114328847 B 3

专利 一种基于知识图谱的数据处理方法及系统

专利一种基于知识图谱的数据处理方法及系统