说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210695532.6 (22)申请日 2022.06.17 (71)申请人 合肥工业大 学 地址 230009 安徽省合肥市包河区屯溪路 193号 (72)发明人 顾东晓 刘虎 王芹 杨善林  丁帅 李霄剑 欧阳波 李卫东  宋律 李敏 杨雪洁 张娅琪  魏琪 李鹏玉 徐正飞  (74)专利代理 机构 北京久诚知识产权代理事务 所(特殊普通 合伙) 11542 专利代理师 余罡 (51)Int.Cl. G06F 40/284(2020.01) G06F 40/242(2020.01)G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于语义相似性计算的词 向量构建方法及 系统 (57)摘要 本发明提供一种基于语义相似性计算的词 向量构建方法及系统, 涉及词向量构建技术领 域。 本发明首先获取包括中心词向量以及中心词 向量的上文矩阵和下文矩阵的初始词向量; 然后 利用卷积神经网络对上文矩阵、 下文矩阵同时进 行多次卷积操作, 获取上下文聚合矩阵, 同时将 中心词向量转换为与上下文聚合矩 阵维度相同 的中心词向量矩阵; 最后计算上下文聚合矩阵与 中心词向量矩阵的语义相似性, 并输出语义相似 性的值最大时的上下文聚合矩 阵作为最终词向 量。 本发明所构建的词向量准确度更高, 且构建 词向量时效率更高。 权利要求书2页 说明书9页 附图3页 CN 115221870 A 2022.10.21 CN 115221870 A 1.一种基于语义相似性计算的词向量构建方法, 其特 征在于, 所述方法包括: 基于预先构建的词典矩阵获取初始词向量; 所述初始词向量包括中心词向量, 以及所 述中心词向量的上文矩阵和下文矩阵; 利用具有多个不共享参数的卷积核的卷积神经网络对所述上文矩阵、 所述下文矩阵同 时进行多次卷积操作, 获取上下文聚合矩阵; 并将所述中心词向量转换为与所述上下文聚 合矩阵维度相同的中心词向量矩阵; 计算所述上下文聚合矩阵与 所述中心词向量矩阵的语义相似性, 输出所述语义相似性 的值最大时的所述上 下文聚合矩阵作为 最终词向量。 2.如权利要求1所述的方法, 其特征在于, 所述基于预先构建的词典矩阵获得词向量包 括: S11、 对语料库 中的语料进行文本分词, 并利用Skip ‑gram模型基于文本分词后的所述 语料训练原 始词向量, 基于训练后的所述原 始词向量构建词典矩阵; S12、 在真实语料的基础上依次采样中心词, 并在中心词的相邻词上进行预设窗口大小 的取词操作, 然后查询所述词典矩阵获得初始词向量。 3.如权利要求1所述的方法, 其特征在于, 所述利用具有多个不共享参数的卷积核的卷 积神经网络对所述上文矩阵、 所述下文矩阵同时进行多次卷积操作, 获取上下文聚合矩阵 包括: S21、 以所述中心词向量为起始点, 采用多个不共享参数的卷积核的卷积神经网络对所 述上文矩阵、 所述下文矩阵同时进行第一次卷积 操作获取第一上 下文聚合矩阵; S22、 然后将所述第一上下文聚合矩阵作为第二次卷积操作的输入, 并重复上述S21的 步骤, 直到 完成预设次数的卷积 操作后获得最终的上 下文聚合矩阵。 4.如权利要求3所述的方法, 其特 征在于, 在每次所述卷积 操作前进行pad ding操作。 5.如权利要求1所述的方法, 其特征在于, 所述将所述中心词向量转换为与 所述上下文 聚合矩阵维度相同的中心词向量矩阵包括: 将所述中心词向量乘以权重向量转换为与所述上下文聚合矩阵维度相同的中心词向 量矩阵。 6.一种基于语义相似性计算的词向量构建系统, 其特 征在于, 所述系统包括: 词向量获取模块, 用于基于预先构建的词典矩阵获取初始词向量; 所述初始词向量包 括中心词向量, 以及所述中心词向量的上文矩阵和下文矩阵; 上下文聚合矩阵和中心词向量矩阵获取模块, 用于利用具有多个不共享参数的卷积核 的卷积神经网络对所述上文矩阵、 所述下文矩阵同时进行多次卷积操作, 获取上下文聚合 矩阵; 并将所述中心词向量 转换为与所述上 下文聚合矩阵维度相同的中心词向量矩阵; 词向量输出模块, 用于计算所述上下文聚合矩阵与所述中心词向量矩阵的语义相似 性, 输出所述语义相似性的值 最大时的所述上 下文聚合矩阵作为 最终词向量。 7.如权利要求6所述的系统, 其特征在于, 所述词向量获取模块基于预先构建的词典矩 阵获得词向量包括: S11、 对语料库 中的语料进行文本分词, 并利用Skip ‑gram模型基于文本分词后的所述 语料训练原 始词向量, 基于训练后的所述原 始词向量构建词典矩阵; S12、 在真实语料的基础上依次采样中心词, 并在中心词的相邻词上进行预设窗口大小权 利 要 求 书 1/2 页 2 CN 115221870 A 2的取词操作, 然后查询所述词典矩阵获得初始词向量。 8.如权利要求6所述的系统, 其特征在于, 所述上下文聚合矩阵和中心词向量矩阵获取 模块利用具有多个不共享参数的卷积核的卷积神经网络对所述上文矩阵、 所述下文矩阵同 时进行多次卷积 操作, 获取 上下文聚合矩阵包括: S21、 以所述中心词向量为起始点, 采用多个不共享参数的卷积核的卷积神经网络对所 述上文矩阵、 所述下文矩阵同时进行第一次卷积 操作获取第一上 下文聚合矩阵; S22、 然后将所述第一上下文聚合矩阵作为第二次卷积操作的输入, 并重复上述S21的 步骤, 直到 完成预设次数的卷积 操作后获得最终的上 下文聚合矩阵。 9.如权利要求8所述的系统, 其特 征在于, 在每次所述卷积 操作前进行pad ding操作。 10.如权利要求6所述的系统, 其特征在于, 所述将所述中心词向量转换为与所述上下 文聚合矩阵维度相同的中心词向量矩阵包括: 将所述中心词向量乘以权重向量转换为与所述上下文聚合矩阵维度相同的中心词向 量矩阵。权 利 要 求 书 2/2 页 3 CN 115221870 A 3

.PDF文档 专利 基于语义相似性计算的词向量构建方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于语义相似性计算的词向量构建方法及系统 第 1 页 专利 基于语义相似性计算的词向量构建方法及系统 第 2 页 专利 基于语义相似性计算的词向量构建方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。