专利音频文本检索模型训练方法、系统、电子设备和存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111683834.3 (22)申请日 2021.12.3 0 (71)申请人思必驰科技股份有限公司地址 215123 江苏省苏州市苏州工业园区新平街38 8号腾飞创新园14栋 (72)发明人俞凯　吴梦玥　楼思余　徐薛楠　 (74)专利代理机构北京商专永信知识产权代理事务所(普通合伙) 11400 代理人黄谦　邓婷婷 (51)Int.Cl. G06F 16/683(2019.01) G06F 16/68(2019.01) G06F 16/632(2019.01) G06F 16/63(2019.01) G06K 9/62(2022.01) (54)发明名称音频文本检索模型训练方法、系统、电子设备和存储介质 (57)摘要本发明公开音频文本检索模型训练方法、电子设备和存储介质，其中，一种音频文本检索模型训练方法，包括：通过音频预训练模型提取音频的音频特征，通过文字预训练模型提取句子的文字特征；分别对所述音频特征和所述文字特征进行池化转为对应的音频单向量嵌入和文字单向量嵌入；将所述音频单向量嵌入和所述文字单向量嵌入映射到同一空间；在所述同一空间内计算映射后的音频单向量嵌入和映射后的文字单向量嵌入的相似度，基于所述相似度与已知相似度的损失训练所述音频文本检索模型。权利要求书1页说明书11页附图3页 CN 114385852 A 2022.04.22 CN 114385852 A 1.一种音频文本检索模型训练方法，包括：通过音频预训练模型提取音频的音频特征，通过文字预训练模型提取句子的文字特征；分别对所述音频特征和所述文字特征进行池化转为对应的音频单向量嵌入和文字单向量嵌入；将所述音频单向量嵌入和所述文字单向量嵌入映射到同一空间；在所述同一空间内计算映射后的音频单向量嵌入和映射后的文字单向量嵌入的相似度，基于所述相似度与已知相似度的损失训练所述音频文本检索模型。 2.根据权利要求1所述的方法，其中，在将所述音频单向量嵌入和所述文字单向量嵌入映射到同一空间之后，所述方法还包括：在所述同一空间内分别对映射后的音频单向量嵌入和映射后的文字单向量嵌入进行增强。 3.根据权利要求1所述的方法，其中，所述池化包括使用局部聚合描述子的无残差向量网络进行池化。 4.根据权利要求1所述的方法，其中，所述池化包括无参数的池化，所述无参数的池化包括平均池化和最大池化。 5.根据权利要求1所述的方法，其中，所述音频预训练模型为音频预训练神经网络，所述文字预训练模型为 word2vec。 6.根据权利要求1 ‑5中任一项所述的方法，其中，所述相似度为正弦相似度。 7.根据权利要求6所述的方法，所述将所述音频单向量嵌入和所述文字单向量嵌入映射到同一空间包括：使用线性层和上下文门控模块对所述音频单向量嵌入和所述文字单向量嵌入进行映射。 8.一种音频文本检索系统，包括：预训练模块，用于对输入的音频和句子进行特征提取；聚合模块，用于将提取的特征映射至同一空间；相似度计算模块，用于在同一空间计算相似度。 9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至7任一项所述方法的步骤。 10.一种存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。权　利　要　求　书 1/1 页 2 CN 114385852 A 2音频文本检索模型训练方法、系统、电子设备和存储介质技术领域 [0001]本发明属于音频文本检索模型训练技术领域，尤其涉及音频文本检索模型训练方法、系统、电子设备和存储介质。背景技术 [0002]相关技术中，主要存在基于元数据(例如人工标注的标题，标签)的音频检索和基于单词或者音频分类标签的音频片段检索。其中，第一种是基于元数据的音频检索，元数据为音频标题或标签。用户输入元数据，系统进行检索，提供匹配音频。第二种是对音频和分类标签进行语义上的匹配，系统输入标签短语(如雨声)，系统检索与 “雨声”内容一致的音频。 [0003]发明人发现：基于元数据的音频检索仅适用于维护良好的数据库，例如歌曲库。而随着信息的快速增长和累计，越来越多的数据为用户生成的数据，而这些数据通常是没有元数据的。因此传统的检索方法并不能适用于此类数据的检索。所以基于内容的音频检索技术更适用于真实世界。然而现有技术大多局限于短音频(1 ‑3s)和类标签的检索，而在真实世界中，音频数据往往不局限于1 ‑3s的音频片段。因此基于单个类标签的音频检索并不能满足现阶段的检索需求。同时使用自然语言查询是在当前搜索引擎中广泛使用的用户界面，当前技术并不能满足这个需求。发明内容 [0004]本发明实施例提供一种音频文本检索模型训练方法和系统和装置，用于至少解决上述技术问题之一。 [0005]第一方面，本发明实施例提供一种音频文本检索模型训练方法，包括：通过音频预训练模型提取音频的音频特征，通过文字预训练模型提取句子的文字特征；分别对所述音频特征和所述文字特征进行池化转为对应的音频单向量嵌入和文字单向量嵌入；将所述音频单向量嵌入和所述文字单向量嵌入映射到同一空间；在所述同一空间内计算映射后的音频单向量嵌入和映射后的文字单向量嵌入的相似度，基于所述相似度与已知相似度的损失训练所述音频文本检索模型。 [0006]第二方面，提供一种音频文本检索系统，包括：预训练模块，用于对输入的音频和句子进行特征提取；聚合模块，用于将提取的特征映射至同一空间；以及相似度计算模块，用于在同一空间计算相似度。 [0007]第三方面，提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例的音频文本检索模型训练方法和系统的步骤。 [0008]第四方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当说　明　书 1/11 页 3 CN 114385852 A 3

专利 音频文本检索模型训练方法、系统、电子设备和存储介质

专利音频文本检索模型训练方法、系统、电子设备和存储介质