说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111683834.3 (22)申请日 2021.12.3 0 (71)申请人 思必驰科技股份有限公司 地址 215123 江苏省苏州市苏州工业园区 新平街38 8号腾飞创新园14栋 (72)发明人 俞凯 吴梦玥 楼思余 徐薛楠  (74)专利代理 机构 北京商专永信知识产权代理 事务所(普通 合伙) 11400 代理人 黄谦 邓婷婷 (51)Int.Cl. G06F 16/683(2019.01) G06F 16/68(2019.01) G06F 16/632(2019.01) G06F 16/63(2019.01) G06K 9/62(2022.01) (54)发明名称 音频文本检索模型训练方法、 系统、 电子设 备和存储介质 (57)摘要 本发明公开音 频文本检索模 型训练方法、 电 子设备和存储介质, 其中, 一种音频文本检索模 型训练方法, 包括: 通过音频预训练模型提取音 频的音频特征, 通过文字预训练模 型提取句子的 文字特征; 分别对所述音 频特征和所述文字特征 进行池化转为对应的音频单向量嵌入和文字单 向量嵌入; 将所述音 频单向量 嵌入和所述文字单 向量嵌入映射到同一空间; 在所述同一空间内计 算映射后的音频单向量嵌入和映射后的文字单 向量嵌入的相似度, 基于所述相似度与已知相似 度的损失训练所述音频文本 检索模型。 权利要求书1页 说明书11页 附图3页 CN 114385852 A 2022.04.22 CN 114385852 A 1.一种音频文本检索模型训练方法, 包括: 通过音频预训练模型提取音频的音频特征, 通过文字预训练模型提取句子的文字特 征; 分别对所述音频特征和所述文字特征进行池化转为对应的音频单向量嵌入和文字单 向量嵌入; 将所述音频 单向量嵌入和所述文字单向量嵌入映射到同一空间; 在所述同一空间内计算映射后的音频单向量嵌入和映射后的文字单向量嵌入的相似 度, 基于所述相似度与已知相似度的损失训练所述音频文本检索模型。 2.根据权利要求1所述的方法, 其中, 在将所述音频单向量嵌入和所述文字单向量嵌入 映射到同一空间之后, 所述方法还 包括: 在所述同一空间内分别对映射后的音频单向量嵌入和映射后的文字单向量嵌入进行 增强。 3.根据权利要求1所述的方法, 其中, 所述池化包括使用局部聚合描述子的无残差向量 网络进行池化。 4.根据权利要求1所述的方法, 其中, 所述池化包括无参数的池化, 所述无参数的池化 包括平均池化和最大池化。 5.根据权利要求1所述的方法, 其中, 所述音频预训练模型为音频预训练神经网络, 所 述文字预训练模型为 word2vec。 6.根据权利要求1 ‑5中任一项所述的方法, 其中, 所述相似度为 正弦相似度。 7.根据权利要求6所述的方法, 所述将所述音频单向量嵌入和所述文字单向量嵌入映 射到同一空间包括: 使用线性层和上下文门控模块对所述音频单向量嵌入和所述文字单向量嵌入进行映 射。 8.一种音频文本检索系统, 包括: 预训练模块, 用于对输入的音频和句子进行 特征提取; 聚合模块, 用于将提取的特 征映射至同一空间; 相似度计算模块, 用于在同一空间计算相似度。 9.一种电子设备, 其包括: 至少一个处理器, 以及与所述至少一个处理器通信连接的存 储器, 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所述指 令被所述至少 一个处理器执行, 以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步 骤。 10.一种存储介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执行时实 现权利要求1至7任一项所述方法的步骤。权 利 要 求 书 1/1 页 2 CN 114385852 A 2音频文本检索模型训练方 法、 系统、 电子 设备和存储介质 技术领域 [0001]本发明属于音频文本检索模型训练技术领域, 尤其涉及音频文本检索模型训练方 法、 系统、 电子设备和存 储介质。 背景技术 [0002]相关技术中, 主要存在基于元数据(例如人工标注的标题, 标签)的音频检索和基 于单词或者音频分类标签的音 频片段检索。 其中, 第一种是基于元数据的音频检索, 元数据 为音频标题或标签。 用户输入元数据, 系统进行检索, 提供匹配音频。 第二种是对音频和分 类标签进行语义上的匹配, 系统输入标签短语(如雨声), 系统检索与 “雨声”内容一致的音 频。 [0003]发明人发现: 基于元数据的音频检索仅适用于维护良好的数据库, 例如 歌曲库。 而 随着信息的快速增长和累计, 越来越多的数据为用户生成的数据, 而这些数据通常是没有 元数据的。 因此传统的检索方法并不能适用于此类数据的检索。 所以基于内容的音频检索 技术更适用于真实世界。 然而现有技术大多局限于短音频(1 ‑3s)和类标签的检索, 而在真 实世界中, 音频数据往往不局限于1 ‑3s的音频片段。 因此基于单个类标签的音频检索并不 能满足现阶段的检索需求。 同时使用自然语言查询是在当前搜索引擎中广泛使用的用户界 面, 当前技 术并不能满足这个需求。 发明内容 [0004]本发明实施例提供一种音频文本检索模型训练方法和系统和装置, 用于至少解决 上述技术问题之一。 [0005]第一方面, 本 发明实施例提供一种音频文本检索模型训练方法, 包括: 通过音频预 训练模型提取音频的音频特征, 通过文字预训练模型提取句 子的文字特征; 分别对所述音 频特征和所述文字特征进 行池化转为对应的音频单向量嵌入和文字单向量嵌入; 将所述音 频单向量嵌入和所述文字单向量嵌入映射到同一空间; 在所述同一空间内计算映射后的音 频单向量嵌入和映射后的文字单向量嵌入的相似度, 基于所述相似度与已知相似度的损失 训练所述音频文本检索模型。 [0006]第二方面, 提供一种音频文本检索系统, 包括: 预训练模块, 用于对输入的音频和 句子进行特征提取; 聚合模块, 用于将提取的特征映射至同一空间; 以及相似度计算模块, 用于在同一空间计算相似度。 [0007]第三方面, 提供一种电子设备, 其包括: 至少一个处理器, 以及与所述至少一个处 理器通信连接的存储器, 其中, 所述存储器存储有 可被所述至少一个处理器执行的指 令, 所 述指令被所述至少一个处理器执行, 以使 所述至少一个处理器能够执行本发明任一 实施例 的音频文本检索模型训练方法和系统的步骤。 [0008]第四方面, 本发明实施例还提供一种计算机程序产品, 所述计算机程序产品包括 存储在非易失性计算机可读存储介质上 的计算机程序, 所述计算机程序包括程序指令, 当说 明 书 1/11 页 3 CN 114385852 A 3

.PDF文档 专利 音频文本检索模型训练方法、系统、电子设备和存储介质

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 音频文本检索模型训练方法、系统、电子设备和存储介质 第 1 页 专利 音频文本检索模型训练方法、系统、电子设备和存储介质 第 2 页 专利 音频文本检索模型训练方法、系统、电子设备和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:44:22上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。