说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210827670.5 (22)申请日 2022.07.14 (71)申请人 腾讯科技 (深圳) 有限公司 地址 518000 广东省深圳市南 山区高新区 科技中一路腾讯大厦3 5层 (72)发明人 康战辉  (74)专利代理 机构 深圳市联鼎知识产权代理有 限公司 4 4232 专利代理师 陈涛 (51)Int.Cl. G06F 40/247(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 40/216(2020.01) G06F 16/35(2019.01)G06F 16/36(2019.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 同义词的挖掘方法、 装置、 计算机可读介质 及电子设备 (57)摘要 本申请的实施例提供了一种同义词的挖掘 方法、 装置、 计算机可读介质及电子设备, 该方法 包括: 获取问答语料和问答语料中包含的实体 词, 并确定问答语料所属的类别; 生成与 问答语 料对应的问答语料节点 以及与实体词对应的实 体词节点; 在多个节点之间添加具有权值的边, 得到第一问答实体词图; 根据第一问答实体词图 和各问答语料所属的类别对原始图神经网络进 行训练, 得到目标图神经网络; 基于目标图神经 网络提取第二问答实体词图中各实体词节点对 应的向量表示, 并根据向量表示挖掘出同义词。 本申请实施例可以提高同义词挖掘的高效性、 准 确性和覆盖的全面性。 本申请实施例可应用于云 技术、 人工智能、 智慧交通、 辅助驾驶等各种场 景。 权利要求书2页 说明书15页 附图15页 CN 115238679 A 2022.10.25 CN 115238679 A 1.一种同义词的挖掘方法, 其特 征在于, 所述方法包括: 获取多个问答语料和各问答语料中包 含的实体词, 并确定各问答语料 所属的类别; 生成与每 个问答语料对应的问答语料节点以及与每 个实体词对应的实体词节点; 在多个所述节点之间添加具有权值的边, 得到第一问答实体词图, 所述权值用于衡量 具有所述权值的边所 连接的两个节点之间的相关性; 根据所述第一问答实体词图和各问答语料所属的类别对用于文本分类的原始图神经 网络进行训练, 得到用于文本分类的目标图神经网络; 基于所述用于文本分类的目标图神经网络提取第二问答实体词图中各实体词节点对 应的向量表示, 并根据各实体词节点对应的向量表示挖掘出同义词。 2.根据权利要求1所述的同义词的挖掘方法, 其特征在于, 所述根据各实体词节点对应 的向量表示挖掘出同义词, 包括: 确定各实体词节点对应的向量表示之间的语义距离; 根据所述语义距离在各实体词节点对应的实体词中确定出同义词。 3.根据权利要求1所述的同义词的挖掘方法, 其特征在于, 所述在多个所述节点之间添 加具有权值的边, 包括: 根据目标实体词属于目标问答语料, 在所述目标实体词对应的实体词节点与 所述目标 问答语料对应的问答语料节点之间添加边; 根据第一实体词所属的第一问答语料和第二实体词所属的第二问答语料属于同一类 别, 在所述第一实体词对应的实体词节点和所述第二实体词对应的实体词节点之间添加 边; 确定各节点之间的相关性作为各节点之间的边的权值。 4.根据权利要求3所述的同义词的挖掘方法, 其特征在于, 所述确定各节点之间的相关 性作为各节点之间的边的权值, 包括: 确定目标实体词和目标问答语料之间的词频 ‑逆文档频率, 作为所述目标实体词对应 的实体词节点与所述目标问答语料对应的问答语料节点之间的边的权值; 确定第一实体词和第 二实体词之间的逐点互信 息, 作为所述第 一实体词对应的实体词 节点和所述第二实体词对应的实体词节点之间的边的权值。 5.根据权利要求1所述的同义词的挖掘方法, 其特征在于, 所述获取多个问答语料和各 问答语料中包 含的实体词, 包括: 获取问答平台上的若干问答语料; 从所述若干问答语料中去 除总浏览次数小于预定数目次或者问答语料的文本长度小 于预定长度阈值的问答语料, 得到多个问答语料; 从各所述问答语料中提取 出实体词。 6.根据权利要求1所述的同义词的挖掘方法, 其特征在于, 所述生成与每个问答语料对 应的问答语料节点以及与每 个实体词对应的实体词节点, 包括: 为每个问答语料生成相应的问答语料节点; 对所有实体词进行去重处 理, 得到去重处 理后的实体词; 为各去重处 理后的实体词生成相应的实体词节点。 7.根据权利要求1所述的同义词的挖掘方法, 其特征在于, 所述根据所述第 一问答实体权 利 要 求 书 1/2 页 2 CN 115238679 A 2词图和各问答语料所属的类别对用于文本 分类的原始图神经网络进行训练, 得到用于文本 分类的目标图神经网络, 包括: 将所述第一问答实体词图输入至用于文本分类的原始图神经网络, 得到所述用于文本 分类的原始图神经网络对所述第一问答实体词图中问答语料节点对应的问答语料的分类 结果; 根据各所述问答语料所属的类别和各问答语料对应的分类结果, 对所述用于文本分类 的原始图神经网络的参数进行 更新, 得到用于文本分类的目标图神经网络 。 8.根据权利要求1所述的同义词的挖掘方法, 其特征在于, 在根据 各实体词节点对应的 向量表示挖掘出同义词之后, 所述方法还 包括: 当接收到查询信 息, 在挖掘出的同义词中确定出与所述查询信 息中的词匹配的目标同 义词; 确定包含所述目标同义词的目标语料, 并将所述目标语料返回给所述查询信 息的发送 方。 9.根据权利要求1 ‑8任意一项所述的同义词的挖掘方法, 其特征在于, 所述问答语料为 医疗问答语料, 所述问答语料 所属的类别为医疗问答语料 所属的科室或疾病。 10.一种同义词的挖掘装置, 其特 征在于, 所述装置包括: 获取和确定单元, 用于获取多个问答语料和各问答语料中包含的实体词, 并确定各问 答语料所属的类别; 生成单元, 用于生成与每个问答语料对应的问答语料节点以及与每个实体词对应的实 体词节点; 添加单元, 用于在多个所述节点之间添加具有权值的边, 得到第一问答实体词图, 所述 权值用于衡量具有所述权值的边所 连接的两个节点之间的相关性; 训练单元, 用于根据 所述第一问答实体词图和各问答语料所属的类别对用于文本分类 的原始图神经网络进行训练, 得到用于文本分类的目标图神经网络; 提取和挖掘单元, 用于基于所述用于文本分类的目标图神经网络提取第 二问答实体词 图中各实体词节点对应的向量表示, 并根据各实体词节点对应的向量表示挖掘出同义词。 11.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序被处 理器执行时实现如权利要求1至9中任一项所述的同义词的挖掘方法。 12.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理 器执行时, 使得所述一个或多个处理器实现如权利要求 1至9中任一项 所述的同义词的挖掘 方法。 13.一种计算机程序产品, 其特征在于, 所述计算机程序产品包括计算机指令, 所述计 算机指令存储在计算机可读存储介质中, 计算机设备的处理器从所述计算机可读存储介质 读取所述计算机指令, 所述处理器执行所述计算机指令, 使得所述计算机设备执行如权利 要求1至9中任一项所述的同义词的挖掘方法。权 利 要 求 书 2/2 页 3 CN 115238679 A 3

.PDF文档 专利 同义词的挖掘方法、装置、计算机可读介质及电子设备

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 同义词的挖掘方法、装置、计算机可读介质及电子设备 第 1 页 专利 同义词的挖掘方法、装置、计算机可读介质及电子设备 第 2 页 专利 同义词的挖掘方法、装置、计算机可读介质及电子设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:57:23上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。