专利声音检测方法、装置及计算机可读存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111636709.7 (22)申请日 2021.12.2 9 (71)申请人浙江大华技术股份有限公司地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人吴人杰　王宝俊　林聚财　殷俊　 (74)专利代理机构深圳市威世博知识产权代理事务所(普通合伙) 44280 专利代理师何倚雯 (51)Int.Cl. G10L 25/51(2013.01) G10L 25/30(2013.01) G06K 9/62(2022.01) (54)发明名称声音检测方法、装置及计算机可读存储介质 (57)摘要本申请公开了一种声音检测方法、装置及计算机可读存储介质，该方法包括：对待检测声音信号进行分段检测，得到每段子声音信号的检测结果，其中，每段子声音信号的检测结果包括子声音信号中发生各个预设声音事件的概率；基于每段子声音信号的检测结果，确定待检测声音信号中发生的声音事件。本申请所提供的方法能够提高声音检测的准确率。权利要求书3页说明书8页附图3页 CN 114512143 A 2022.05.17 CN 114512143 A 1.一种声音检测方法，其特征在于，所述方法包括：对待检测声音信号进行分段检测，得到每段子声音信号的检测结果，其中，每段子声音信号的检测结果包括所述子声音信号中发生各个预设声音事件的概率；基于每段所述子声音信号的检测结果，确定所述待检测声音信号中发生的声音事件。 2.根据权利要求1所述的方法，其特征在于，所述对待检测声音信号进行分段检测，得到每段子声音信号的检测结果的步骤，包括：对每段所述子声音信号进行如下处理：提取所述子声音信号的声音特征；将所述子声音信号的声音特征送入预先训练好的检测网络，得到所述子声音信号的所述检测结果。 3.根据权利要求2所述的方法，其特征在于，所述提取所述子声音信号的声音特征的步骤，包括：提取所述子声音信号中每帧声音信号的声音特征；将所述每帧声音信号的声音特征进行拼接，得到所述子声音信号的声音特征。 4.根据权利要求2所述的方法，其特征在于，在所述对待检测声音信号进行分段检测，得到每段子声音信号的检测结果之前，还包括：获取训练数据集，所述训练数据集包括发生各个所述预设声音事件的多个声音信号；利用所述训练数据集，对所述检测网络进行训练，得到所述训练后的检测网络。 5.根据权利要求4所述的方法，其特征在于，所述利用所述训练数据集，对所述检测网络进行训练，得到所述训练后的检测网络的步骤，包括：基于目标场景关联的参考音频，对所述训练数据集中的声音信号进行干扰处理，以使所述声音信号的分布特征与所述目标场景相符；利用进行所述干扰处理后的所述训练数据集对所述检测网络进行训练。 6.根据权利要求5所述的方法，其特征在于，所述基于目标场景关联的参考音频，对所述训练数据集中的声音信号进行干扰处理的步骤，包括：所述参考音频包括所述目标场景关联的冲激响应，利用所述目标场景关联的冲激响应和所述声音信号进行卷积处理；和/或所述参考音频包括所述目标场景关联的噪声，利用所述噪声与所述声音信号进行叠加处理。 7.根据权利要求4所述的方法，其特征在于，所述预设声音事件包括N个；所述N为大于1 的整数；所述训练数据集至少包括N个训练数据子集；一个所述训练数据子集中的声音信号发生N个预设声音事件中的一个预设声音事件，不同训练数据子集中的声音信号发生的预设声音事件不同； N个训练数据子集中声音信号的数量的最大值与最小值的比值小于或者等于第一阈值。 8.根据权利要求7所述的方法，其特征在于，在所述利用所述训练数据集，对所述检测网络进行训练之前，还包括：确定所述 N个训练数据子集中声音信号的数量的最大值；权　利　要　求　书 1/3 页 2 CN 114512143 A 2响应于所述N个训练数据子集中存在声音信号的数量与所述最大值的比值小于第二阈值的目标训练数据子集，对所述目标训练数据子集中的声音信号进行数据扩展处理，至所述目标训练数据子集中声音信号的数量与所述最大值的比值等于或大于第二阈值，所述第二阈值与所述第一阈值的乘积为1。 9.根据权利要求8所述的方法，其特征在于，所述对所述目标训练数据子集中的声音信号进行数据扩展处理的步骤，包括：对所述目标训练数据子集中的声音信号进行移频处理，得到新声音信号，并在所述目标训练数据子集中增加所述新声音信号；或者，采用生成对抗网络生成所述目标训练数据子集中的声音信号的相似声音信号，并在所述目标训练数据子集中增加所述相似声音信号。 10.根据权利要求2所述的方法，其特征在于，所述检测网络包括深度可分离卷积层、循环层、池化层以及线性层，其中，所述深度可分离卷积层、所述循环层、所述池化层以及所述线性层的数量均为多个，且每个所述深度可分离卷积层连接有所述池化层。 11.根据权利要求1 ‑10任一项所述的方法，其特征在于，所述基于每段所述子声音信号的检测结果，确定所述待检测声音信号中发生的声音事件的步骤，包括：将目标声音事件，确定为所述待检测声音信号中发生的声音事件，其中，所述目标声音事件是所述各个预设声音事件中的声音事件，且在所有所述子声音信号的检测结果中，所述目标声音事件对应的概率超过第三阈值的次数超过次数阈值。 12.根据权利要求11所述的方法，其特征在于，在所述将目标声音事件，确定为所述待检测声音信号中发生的声音事件之前，还包括：对所有所述子声音信号的检测结果进行平滑处理，使得相邻两段所述子声音信号的所述检测结果中同一个预设声音事件对应的概率的差值在预设范围内。 13.根据权利要求1 ‑10任一项所述的方法，其特征在于，所述基于每段所述子声音信号的检测结果，确定所述待检测声音信号中发生的声音事件的步骤，包括：将所有所述子声音信号的检测结果送入整合网络，得到整合结果，所述整合结果包括所述待检测声音信号中发生各个所述预设声音事件的置信度；根据所述整合结果，确定所述待检测声音信号中发生的声音事件。 14.根据权利要求13所述的方法，其特征在于，所述根据所述整合结果，确定所述待检测声音信号中发生的声音事件的步骤，包括：确定所述整合结果中置信度的最大值；将所述最大值对应的预设声音事件，确定为所述待检测声音信号中发生的声音事件。 15.根据权利要求14所述的方法，其特征在于，在所述将所述最大值对应的预设声音事件，确定为所述待检测声音信号中发生的声音事件之前，还包括：判断所述最大值和第四阈值的大小关系；所述将所述最大值对应的预设声音事件，确定为所述待检测声音信号中发生的声音事件的步骤，包括：响应于所述最大值大于或等于所述第四阈值，将所述最大值对应的预设声音事件，确定为所述待检测声音信号中发生的声音事件；或，响应于所述最大值小于所述第四阈值，确定所述待检测声音信号中未发生所述预设声音事件。权　利　要　求　书 2/3 页 3 CN 114512143 A 3

专利 声音检测方法、装置及计算机可读存储介质

专利声音检测方法、装置及计算机可读存储介质