说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210289909.8 (22)申请日 2022.03.23 (71)申请人 广州荔支网络技 术有限公司 地址 510000 广东省广州市天河区黄埔大 道中309号7栋101室 (72)发明人 谭又伟 丁宁  (74)专利代理 机构 广州佳睿知识产权代理事务 所(普通合伙) 44610 专利代理师 李健富 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/247(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称 一种实体的别名挖掘方法、 装置、 计算机设 备和存储介质 (57)摘要 本发明涉及一种实体的别名挖掘方法、 装 置、 计算机设备和存储介质。 所述的方法包括: 对 查询文本进行中心词抽取, 得到中心词; 对文本 数据进行实体抽取, 得到实体; 基于被点击声音 的播放时长, 确定被有效点击的声音的文本数 据; 基于被有效点击的声音的文本数据确定目标 实体; 将中心词、 目标 实体作为点元素, 构建二部 图; 基于二部图确定中心词与目标 实体之间的权 重; 基于二部图确认目标实体的中心词集合; 将 所述中心词集合的中心词输入词向量生成模型, 得到中心词向量; 将中心词集合中各中心词所对 应中心词向量进行加权求和, 得到目标实体的向 量表示; 基于各目标实体的向量表 示之间的余弦 相似度识别实体别名。 能够挖掘出 实体精确度高 的别名。 权利要求书2页 说明书11页 附图5页 CN 114611518 A 2022.06.10 CN 114611518 A 1.一种实体的别名挖掘方法, 其特 征在于, 包括: 获取用户输入的查询文本, 用户针对查询文本对应的查询结果的点击行为数据, 以及 用户所点击声 音的文本数据; 所述 点击行为数据包括被点击声 音的播放时长; 对所述查询文本进行中心词抽取, 得到中心词; 对所述文本数据进行实体抽取, 得到实体; 基于被点击声音的播放时长, 确定被有效点击的声音的文本数据; 基于被有效点击的 声音的文本数据确定目标实体; 将中心词、 目标实体作为点元素, 基于查询文本与声音的点击关系, 中心词与查询文本 的被包含关系, 以及文本数据与目标实体的包含关系, 构建表征中心词与目标实体之间关 系的二部图; 基于所述二部图确定中心词与目标实体之间的权重; 基于二部图确认目标实 体的中心词集 合; 根据查询文本、 点击行为数据、 声 音的文本数据, 生成查询会话数据; 将所述中心词集合的中心词输入词向量生成模型, 得到中心词向量; 所述词向量生成 模型是对预设模型进 行训练得到的, 所述词向量生成模型的训练数据基于查询会话数据构 造; 将中心词集合中各中心词所对应中心词向量进行加权求和, 得到目标实体的向量表 示; 基于各目标实体的向量表示之间的余弦相似度识别实体别名。 2.根据权利要求1所述的方法, 其特征在于, 所述将中心词、 目标实体作为点元素, 基于 查询文本与声音的点击关系, 中心词与查询文本的被包含关系, 以及文本数据与目标实体 的包含关系, 构建表征中心词与目标实体之间关系的二部图, 包括: 将中心词、 查询文本、 文本数据、 目标实体作为点元素, 基于查询文本与声音的点击关 系, 中心词与查询文本的被包含关系, 以及 文本数据与目标实体的包含关系, 得到所述点元 素之间的有向连接路径, 进 而构建有向图; 基于所述有向图构建表征中心词与目标实体之间关系的二部图。 3.根据权利要求1所述的方法, 其特征在于, 所述基于被点击声音的播放时长, 确定被 有效点击的声 音的文本数据, 包括: 若被点击声音的播放 时长超过预设播放 时长阈值, 则标注该被点击声音为被有 效点击 的声音。 4.根据权利要求1至 3任一项所述的方法, 其特 征在于, 还 包括: 将目标实体的别名与预先构建的别名知识库进行融合, 以对目标实体的别名进行补 全。 5.一种实体的别名挖掘装置, 其特 征在于, 包括: 获取模块, 用于获取用户输入的查询文本, 用户针对查询文本对应的查询结果的点击 行为数据, 以及用户所点击声音的文本数据; 所述点击行为数据包括被点击声音的播放时 长; 中心词抽取模块, 用于对所述 查询文本进行中心词抽取, 得到中心词; 实体抽取模块, 用于对所述文本数据进行实体抽取, 得到实体; 目标实体确定模块, 用于基于被点击声音的播放时长, 确定被有效点击的声音的文本 数据; 基于被有效点击的声 音的文本数据确定目标实体;权 利 要 求 书 1/2 页 2 CN 114611518 A 2权重确定模块, 用于将中心词、 目标实体作为点元素, 基于查询文本与声音的点击关 系, 中心词与查询文本的被包含关系, 以及 文本数据与目标实体的包含关系, 构建表征中心 词与目标实体之间关系的二部图; 基于所述二部图确定中心词与目标实体之间的权重; 基 于二部图确认目标实体的中心词集 合; 会话数据生成模块, 用于根据查询文本, 点击行为数据、 声音的文本数据, 生成查询会 话数据; 中心词向量生成模块, 用于将所述中心词集合的中心词输入词向量生成模型, 得到中 心词向量; 所述词向量生成模型是对预设模型进行训练得到的, 所述词向量生成模型 的训 练数据基于查询会话数据构造; 别名识别模块, 用于将中心词集合中各中心词所对应中心词向量进行加权求和, 得到 目标实体的向量表示; 基于各目标实体的向量表示之间的余弦相似度识别实体别名。 6.根据权利要求5所述的装置, 其特 征在于, 所述权 重确定模块包括: 有向图构建子模块, 用于将中心词、 查询文本、 文本数据、 目标实体作为点元素, 基于查 询文本与声音的点击关系, 中心词与查询文本的被包含关系, 以及文本数据与目标实体的 包含关系, 得到所述 点元素之间的有向连接路径, 进 而构建有向图; 二部图构建子模块, 用于基于所述有向图构建表征中心词与目标实体之间关系的二部 图。 7.根据权利要求5所述的装置, 其特征在于: 所述目标实体确定模块还用于若被点击声 音的播放时长超过 预设播放时长阈值, 则标注该被点击声 音为被有效点击的声 音。 8.根据权利要求5 至7任一项所述的装置, 其特 征在于, 还 包括: 扩充模块, 用于将目标实体的别名与预先构建的别名知识库进行融合, 以对目标实体 的别名进行补全。 9.一种计算机设备, 其特 征在于, 所述计算机设备包括: 一个或多个处 理器; 存储器, 用于存 储一个或多个程序; 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑4中任一项所述的实体的别名挖掘方法。 10.一种计算机可读存储介质, 其特征在于: 所述计算机可读存储介质上存储计算机程 序, 所述计算机程序被处理器执行时实现如权利要求1 ‑4中任一项所述的实体的别名挖掘 方法。权 利 要 求 书 2/2 页 3 CN 114611518 A 3

.PDF文档 专利 一种实体的别名挖掘方法、装置、计算机设备和存储介质

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种实体的别名挖掘方法、装置、计算机设备和存储介质 第 1 页 专利 一种实体的别名挖掘方法、装置、计算机设备和存储介质 第 2 页 专利 一种实体的别名挖掘方法、装置、计算机设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 08:53:45上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。