说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202111643298.4 (22)申请日 2021.12.2 9 (65)同一申请的已公布的文献号 申请公布号 CN 114333908 A (43)申请公布日 2022.04.12 (73)专利权人 广州方硅信息技 术有限公司 地址 511400 广东省广州市番禺区南村镇 万博二路79号3108 (72)发明人 陈广 陈增海 郑康元 王璞  (74)专利代理 机构 广州骏思知识产权代理有限 公司 44425 专利代理师 潘桂生 孙小玉 (51)Int.Cl. G10L 25/51(2013.01) G06K 9/00(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 25/03(2013.01) G10L 25/18(2013.01) G10L 25/30(2013.01) 审查员 田树雪 (54)发明名称 在线音频分类方法、 装置及计算机设备 (57)摘要 本申请涉及 音频互动领域和网络直播领域, 提出一种在线音频分类方法、 装置及计算机设 备, 该方法包括: 获取在线音频信号; 提取在线音 频信号对应的第一音 频特征图; 将在线音频信号 对应的第一音频特征图输入至预训练好的音频 分类模型, 得到在线音频信号的分类结果; 其中, 预训练好的音频分类模型中包括若干个音频分 类模块, 每个音频分类模块中包括至少一个自注 意力模块, 自注意力模块用于对音频特征图进行 时序维度和频率维度上的远距离特征融合。 相对 于现有技术, 本申请考虑到在 线音频信号其语义 与时序相关性较强且语义较为复杂的特点, 使用 自注意力模块对音频特征图进行时序维度和频 率维度上的远距离特征融合, 提高了在线音 频分 类结果的准确性。 权利要求书4页 说明书13页 附图6页 CN 114333908 B 2022.09.30 CN 114333908 B 1.一种在线 音频分类方法, 其特 征在于, 所述方法包括 步骤: 获取在线音频信号; 其中, 所述在线音频信号为将原始在线音频信号分段裁切后得到 的; 提取所述在线音频信号对应的第一音频特征图; 其中, 所述第一音频特征图中每个时 序维度和每 个频率维度上共同对应有一个特 征; 将所述在线音频信号对应的第 一音频特征图输入至预训练好的音频分类模型, 得到所 述在线音频信号的分类结果; 其中, 所述预训练好的音频分类模型中包括若干个音频分类 模块, 每个所述音频分类模块包括至少 两个卷积模块和至少一个 自注意力模块, 所述自注 意力模块设置在相邻的两个所述卷积模块之间; 所述将所述在线音频信号对应的第 一音频特征图输入至预训练好的音频分类模型, 得 到所述在线 音频信号的分类结果的步骤, 包括: 通过所述自注意力模块接收上一个所述卷积模块输出的第 二音频特征图, 并对所述第 二音频特征图进 行所述时序维度和所述频率 维度上的远距离特征融合, 得到第三音频特征 图; 其中, 所述第二音频特征图为所述第一音频特征图经过至少一个所述卷积模块处理后 得到的; 将上一个所述卷积模块输出的所述第二音频特征图与所述自注意力模块输出的所述 第三音频特征图进 行点积运算, 并将点积运算结果输入至下一个所述卷积模块中; 其中, 上 一个所述卷积模块与下一个所述卷积模块 为所述音频分类模块中相邻的卷积模块。 2.根据权利要求1所述的在线音频分类方法, 其特征在于, 所述对所述第 二音频特征图 进行所述时序维度和所述频率维度上的远距离特 征融合, 得到第三音频 特征图, 包括 步骤: 对所述第二音频特征图中相同所述频率维度上的若干个所述时序维度上的特征进行 映射, 得到第一形状的第一目标音频特征图; 其中, 所述第一形状的第一目标音频特征图中 每个所述频率维度上的特 征为映射后的若干个所述时序维度上的特 征; 对所述第二音频特征图中相同所述时序维度上的若干个所述频率维度上的特征进行 映射, 得到第二形状的第二目标音频特征图; 其中, 所述第二形状的第二目标音频特征图中 每个所述时序维度上的特 征为映射后的若干个所述频率维度上的特 征; 根据所述第一目标音频特征图, 得到在若干个所述频率维度上的时序相关性权重 图; 其中, 每个所述频率 维度上的时序相关性权重图用于指示不同所述时序维度上的特征的相 关性; 根据所述第二目标音频特征图, 得到在若干个所述时序维度上的频率相关性权重 图; 其中, 每个所述时序维度上的频率相关性权重图用于指示不同所述频率 维度上的特征的相 关性; 根据所述第 一目标音频特征图和若干个所述频率维度上的时序相关性权重图, 得到在 所述时序维度上进行远距离特 征融合后的第三目标音频 特征图; 根据所述第 二目标音频特征图和若干个所述 时序维度上的频率相关性权重图, 得到在 所述频率维度上进行远距离特 征融合后的第四目标音频 特征图; 将所述第三目标音频特征图和所述第四目标音频特征图进行累加, 得到所述第 三音频 特征图。 3.根据权利要求2所述的在线音频分类方法, 其特征在于, 所述第 一目标音频特征图包权 利 要 求 书 1/4 页 2 CN 114333908 B 2括若干个所述频率维度上的音频时序特 征子图; 所述根据 所述第一目标音频特征图, 得到在若干个所述频率维度 上的时序相关性权重 图, 包括步骤: 对若干个所述音频时序特征子图进行转置运算, 得到转置后的所述音频时序特征子 图; 将若干个转置后的所述音频时序特征子图与对应的转置前的所述音频时序特征子图 进行相关性 运算, 得到在若干个所述频率维度上的时序相关性权 重图。 4.根据权利要求2所述的在线音频分类方法, 其特征在于, 所述第 二目标音频特征图包 括若干个所述时序维度上的音频 频率特征子图; 所述根据 所述第二目标音频特征图, 得到在若干个所述 时序维度 上的频率相关性权重 图, 包括步骤: 对若干个所述音频频率特征子图进行转置运算, 得到转置后的所述音频频率特征子 图; 将若干个转置后的所述音频频率特征子图与对应的转置前的所述音频频率特征子图 进行相关性 运算, 得到在若干个所述时序维度上的频率相关性权 重图。 5.根据权利要求2所述的在线音频分类方法, 其特征在于, 所述第 一目标音频特征图中 包括若干个所述频率维度上的音频时序特 征子图; 所述根据 所述第一目标音频特征图和若干个所述频率维度 上的时序相关性权重图, 得 到在所述时序维度上进行远距离特 征融合后的第三目标音频 特征图, 包括 步骤: 将若干个所述频率维度上的时序相关性权重图与对应的所述频率维度上的音频时序 特征子图进行点积运算, 得到若干个在所述时序维度上进 行远距离特征融合后的所述第三 目标音频特征图; 其中, 点积运算后每个所述频率维度上 的音频时序特征子图中的特征依 据对应的所述时序相关性权 重图重新 排布。 6.根据权利要求2所述的在线音频分类方法, 其特征在于, 所述第 二目标音频特征图中 包括若干个所述时序维度上的音频 频率特征子图; 所述根据 所述第二目标音频特征图和若干个所述 时序维度 上的频率相关性权重图, 得 到在所述频率维度上进行远距离特 征融合后的第四目标音频 特征图, 包括 步骤: 将若干个所述时序维度上的频率相关性权重图与对应的所述时序维度上的音频频率 特征子图进行点积运算, 得到若干个在所述频率 维度上进 行远距离特征融合后的所述第四 目标音频特征图; 其中, 点积运算后每个所述时序维度上 的音频频率特征子图中的特征依 据对应的所述频率相关性权 重图重新 排布。 7.根据权利要求1至6任意一项所述的在线音频分类方法, 其特征在于: 所述预训练好 的音频分类模型为残差神经网络模型, 所述音频分类模块为残差模块, 所述残差模块包括 两个卷积模块和一个所述自注意力模块。 8.根据权利要求1至6任意一项所述的在线音频分类方法, 其特征在于, 所述获取在线 音频信号之前, 所述方法包括 步骤: 获取在线 音频训练信号; 其中, 所述在线 音频训练信号已标注音频分类结果; 提取所述在线 音频训练信号对应的第一音频 特征图; 根据所述在线音频训练信号对应的第 一音频特征图、 预设的优化算法和预设的损失函权 利 要 求 书 2/4 页 3 CN 114333908 B 3

.PDF文档 专利 在线音频分类方法、装置及计算机设备

文档预览
中文文档 24 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共24页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 在线音频分类方法、装置及计算机设备 第 1 页 专利 在线音频分类方法、装置及计算机设备 第 2 页 专利 在线音频分类方法、装置及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:43:38上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。