专利一种实体的别名挖掘方法、装置、计算机设备和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210289909.8 (22)申请日 2022.03.23 (71)申请人广州荔支网络技术有限公司地址 510000 广东省广州市天河区黄埔大道中309号7栋101室 (72)发明人谭又伟　丁宁　 (74)专利代理机构广州佳睿知识产权代理事务所(普通合伙) 44610 专利代理师李健富 (51)Int.Cl. G06F 40/295(2020.01) G06F 16/36(2019.01) G06F 40/216(2020.01) G06F 40/247(2020.01) G06F 40/30(2020.01)G06K 9/62(2022.01) (54)发明名称一种实体的别名挖掘方法、装置、计算机设备和存储介质 (57)摘要本发明涉及一种实体的别名挖掘方法、装置、计算机设备和存储介质。所述的方法包括：对查询文本进行中心词抽取，得到中心词；对文本数据进行实体抽取，得到实体；基于被点击声音的播放时长，确定被有效点击的声音的文本数据；基于被有效点击的声音的文本数据确定目标实体；将中心词、目标实体作为点元素，构建二部图；基于二部图确定中心词与目标实体之间的权重；基于二部图确认目标实体的中心词集合；将所述中心词集合的中心词输入词向量生成模型，得到中心词向量；将中心词集合中各中心词所对应中心词向量进行加权求和，得到目标实体的向量表示；基于各目标实体的向量表示之间的余弦相似度识别实体别名。能够挖掘出实体精确度高的别名。权利要求书2页说明书11页附图5页 CN 114611518 A 2022.06.10 CN 114611518 A 1.一种实体的别名挖掘方法，其特征在于，包括：获取用户输入的查询文本，用户针对查询文本对应的查询结果的点击行为数据，以及用户所点击声音的文本数据；所述点击行为数据包括被点击声音的播放时长；对所述查询文本进行中心词抽取，得到中心词；对所述文本数据进行实体抽取，得到实体；基于被点击声音的播放时长，确定被有效点击的声音的文本数据；基于被有效点击的声音的文本数据确定目标实体；将中心词、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，构建表征中心词与目标实体之间关系的二部图；基于所述二部图确定中心词与目标实体之间的权重；基于二部图确认目标实体的中心词集合；根据查询文本、点击行为数据、声音的文本数据，生成查询会话数据；将所述中心词集合的中心词输入词向量生成模型，得到中心词向量；所述词向量生成模型是对预设模型进行训练得到的，所述词向量生成模型的训练数据基于查询会话数据构造；将中心词集合中各中心词所对应中心词向量进行加权求和，得到目标实体的向量表示；基于各目标实体的向量表示之间的余弦相似度识别实体别名。 2.根据权利要求1所述的方法，其特征在于，所述将中心词、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，构建表征中心词与目标实体之间关系的二部图，包括：将中心词、查询文本、文本数据、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，得到所述点元素之间的有向连接路径，进而构建有向图；基于所述有向图构建表征中心词与目标实体之间关系的二部图。 3.根据权利要求1所述的方法，其特征在于，所述基于被点击声音的播放时长，确定被有效点击的声音的文本数据，包括：若被点击声音的播放时长超过预设播放时长阈值，则标注该被点击声音为被有效点击的声音。 4.根据权利要求1至 3任一项所述的方法，其特征在于，还包括：将目标实体的别名与预先构建的别名知识库进行融合，以对目标实体的别名进行补全。 5.一种实体的别名挖掘装置，其特征在于，包括：获取模块，用于获取用户输入的查询文本，用户针对查询文本对应的查询结果的点击行为数据，以及用户所点击声音的文本数据；所述点击行为数据包括被点击声音的播放时长；中心词抽取模块，用于对所述查询文本进行中心词抽取，得到中心词；实体抽取模块，用于对所述文本数据进行实体抽取，得到实体；目标实体确定模块，用于基于被点击声音的播放时长，确定被有效点击的声音的文本数据；基于被有效点击的声音的文本数据确定目标实体；权　利　要　求　书 1/2 页 2 CN 114611518 A 2权重确定模块，用于将中心词、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，构建表征中心词与目标实体之间关系的二部图；基于所述二部图确定中心词与目标实体之间的权重；基于二部图确认目标实体的中心词集合；会话数据生成模块，用于根据查询文本，点击行为数据、声音的文本数据，生成查询会话数据；中心词向量生成模块，用于将所述中心词集合的中心词输入词向量生成模型，得到中心词向量；所述词向量生成模型是对预设模型进行训练得到的，所述词向量生成模型的训练数据基于查询会话数据构造；别名识别模块，用于将中心词集合中各中心词所对应中心词向量进行加权求和，得到目标实体的向量表示；基于各目标实体的向量表示之间的余弦相似度识别实体别名。 6.根据权利要求5所述的装置，其特征在于，所述权重确定模块包括：有向图构建子模块，用于将中心词、查询文本、文本数据、目标实体作为点元素，基于查询文本与声音的点击关系，中心词与查询文本的被包含关系，以及文本数据与目标实体的包含关系，得到所述点元素之间的有向连接路径，进而构建有向图；二部图构建子模块，用于基于所述有向图构建表征中心词与目标实体之间关系的二部图。 7.根据权利要求5所述的装置，其特征在于：所述目标实体确定模块还用于若被点击声音的播放时长超过预设播放时长阈值，则标注该被点击声音为被有效点击的声音。 8.根据权利要求5 至7任一项所述的装置，其特征在于，还包括：扩充模块，用于将目标实体的别名与预先构建的别名知识库进行融合，以对目标实体的别名进行补全。 9.一种计算机设备，其特征在于，所述计算机设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1 ‑4中任一项所述的实体的别名挖掘方法。 10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如权利要求1 ‑4中任一项所述的实体的别名挖掘方法。权　利　要　求　书 2/2 页 3 CN 114611518 A 3

专利 一种实体的别名挖掘方法、装置、计算机设备和存储介质

专利一种实体的别名挖掘方法、装置、计算机设备和存储介质