专利在线音频分类方法、装置及计算机设备

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111643298.4 (22)申请日 2021.12.2 9 (65)同一申请的已公布的文献号申请公布号 CN 114333908 A (43)申请公布日 2022.04.12 (73)专利权人广州方硅信息技术有限公司地址 511400 广东省广州市番禺区南村镇万博二路79号3108 (72)发明人陈广　陈增海　郑康元　王璞　 (74)专利代理机构广州骏思知识产权代理有限公司 44425 专利代理师潘桂生　孙小玉 (51)Int.Cl. G10L 25/51(2013.01) G06K 9/00(2022.01)G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G10L 25/03(2013.01) G10L 25/18(2013.01) G10L 25/30(2013.01) 审查员田树雪 (54)发明名称在线音频分类方法、装置及计算机设备 (57)摘要本申请涉及音频互动领域和网络直播领域，提出一种在线音频分类方法、装置及计算机设备，该方法包括：获取在线音频信号；提取在线音频信号对应的第一音频特征图；将在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到在线音频信号的分类结果；其中，预训练好的音频分类模型中包括若干个音频分类模块，每个音频分类模块中包括至少一个自注意力模块，自注意力模块用于对音频特征图进行时序维度和频率维度上的远距离特征融合。相对于现有技术，本申请考虑到在线音频信号其语义与时序相关性较强且语义较为复杂的特点，使用自注意力模块对音频特征图进行时序维度和频率维度上的远距离特征融合，提高了在线音频分类结果的准确性。权利要求书4页说明书13页附图6页 CN 114333908 B 2022.09.30 CN 114333908 B 1.一种在线音频分类方法，其特征在于，所述方法包括步骤：获取在线音频信号；其中，所述在线音频信号为将原始在线音频信号分段裁切后得到的；提取所述在线音频信号对应的第一音频特征图；其中，所述第一音频特征图中每个时序维度和每个频率维度上共同对应有一个特征；将所述在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到所述在线音频信号的分类结果；其中，所述预训练好的音频分类模型中包括若干个音频分类模块，每个所述音频分类模块包括至少两个卷积模块和至少一个自注意力模块，所述自注意力模块设置在相邻的两个所述卷积模块之间；所述将所述在线音频信号对应的第一音频特征图输入至预训练好的音频分类模型，得到所述在线音频信号的分类结果的步骤，包括：通过所述自注意力模块接收上一个所述卷积模块输出的第二音频特征图，并对所述第二音频特征图进行所述时序维度和所述频率维度上的远距离特征融合，得到第三音频特征图；其中，所述第二音频特征图为所述第一音频特征图经过至少一个所述卷积模块处理后得到的；将上一个所述卷积模块输出的所述第二音频特征图与所述自注意力模块输出的所述第三音频特征图进行点积运算，并将点积运算结果输入至下一个所述卷积模块中；其中，上一个所述卷积模块与下一个所述卷积模块为所述音频分类模块中相邻的卷积模块。 2.根据权利要求1所述的在线音频分类方法，其特征在于，所述对所述第二音频特征图进行所述时序维度和所述频率维度上的远距离特征融合，得到第三音频特征图，包括步骤：对所述第二音频特征图中相同所述频率维度上的若干个所述时序维度上的特征进行映射，得到第一形状的第一目标音频特征图；其中，所述第一形状的第一目标音频特征图中每个所述频率维度上的特征为映射后的若干个所述时序维度上的特征；对所述第二音频特征图中相同所述时序维度上的若干个所述频率维度上的特征进行映射，得到第二形状的第二目标音频特征图；其中，所述第二形状的第二目标音频特征图中每个所述时序维度上的特征为映射后的若干个所述频率维度上的特征；根据所述第一目标音频特征图，得到在若干个所述频率维度上的时序相关性权重图；其中，每个所述频率维度上的时序相关性权重图用于指示不同所述时序维度上的特征的相关性；根据所述第二目标音频特征图，得到在若干个所述时序维度上的频率相关性权重图；其中，每个所述时序维度上的频率相关性权重图用于指示不同所述频率维度上的特征的相关性；根据所述第一目标音频特征图和若干个所述频率维度上的时序相关性权重图，得到在所述时序维度上进行远距离特征融合后的第三目标音频特征图；根据所述第二目标音频特征图和若干个所述时序维度上的频率相关性权重图，得到在所述频率维度上进行远距离特征融合后的第四目标音频特征图；将所述第三目标音频特征图和所述第四目标音频特征图进行累加，得到所述第三音频特征图。 3.根据权利要求2所述的在线音频分类方法，其特征在于，所述第一目标音频特征图包权　利　要　求　书 1/4 页 2 CN 114333908 B 2括若干个所述频率维度上的音频时序特征子图；所述根据所述第一目标音频特征图，得到在若干个所述频率维度上的时序相关性权重图，包括步骤：对若干个所述音频时序特征子图进行转置运算，得到转置后的所述音频时序特征子图；将若干个转置后的所述音频时序特征子图与对应的转置前的所述音频时序特征子图进行相关性运算，得到在若干个所述频率维度上的时序相关性权重图。 4.根据权利要求2所述的在线音频分类方法，其特征在于，所述第二目标音频特征图包括若干个所述时序维度上的音频频率特征子图；所述根据所述第二目标音频特征图，得到在若干个所述时序维度上的频率相关性权重图，包括步骤：对若干个所述音频频率特征子图进行转置运算，得到转置后的所述音频频率特征子图；将若干个转置后的所述音频频率特征子图与对应的转置前的所述音频频率特征子图进行相关性运算，得到在若干个所述时序维度上的频率相关性权重图。 5.根据权利要求2所述的在线音频分类方法，其特征在于，所述第一目标音频特征图中包括若干个所述频率维度上的音频时序特征子图；所述根据所述第一目标音频特征图和若干个所述频率维度上的时序相关性权重图，得到在所述时序维度上进行远距离特征融合后的第三目标音频特征图，包括步骤: 将若干个所述频率维度上的时序相关性权重图与对应的所述频率维度上的音频时序特征子图进行点积运算，得到若干个在所述时序维度上进行远距离特征融合后的所述第三目标音频特征图；其中，点积运算后每个所述频率维度上的音频时序特征子图中的特征依据对应的所述时序相关性权重图重新排布。 6.根据权利要求2所述的在线音频分类方法，其特征在于，所述第二目标音频特征图中包括若干个所述时序维度上的音频频率特征子图；所述根据所述第二目标音频特征图和若干个所述时序维度上的频率相关性权重图，得到在所述频率维度上进行远距离特征融合后的第四目标音频特征图，包括步骤：将若干个所述时序维度上的频率相关性权重图与对应的所述时序维度上的音频频率特征子图进行点积运算，得到若干个在所述频率维度上进行远距离特征融合后的所述第四目标音频特征图；其中，点积运算后每个所述时序维度上的音频频率特征子图中的特征依据对应的所述频率相关性权重图重新排布。 7.根据权利要求1至6任意一项所述的在线音频分类方法，其特征在于：所述预训练好的音频分类模型为残差神经网络模型，所述音频分类模块为残差模块，所述残差模块包括两个卷积模块和一个所述自注意力模块。 8.根据权利要求1至6任意一项所述的在线音频分类方法，其特征在于，所述获取在线音频信号之前，所述方法包括步骤：获取在线音频训练信号；其中，所述在线音频训练信号已标注音频分类结果；提取所述在线音频训练信号对应的第一音频特征图；根据所述在线音频训练信号对应的第一音频特征图、预设的优化算法和预设的损失函权　利　要　求　书 2/4 页 3 CN 114333908 B 3

专利 在线音频分类方法、装置及计算机设备

专利在线音频分类方法、装置及计算机设备