说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111636709.7 (22)申请日 2021.12.2 9 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 吴人杰 王宝俊 林聚财 殷俊  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 何倚雯 (51)Int.Cl. G10L 25/51(2013.01) G10L 25/30(2013.01) G06K 9/62(2022.01) (54)发明名称 声音检测方法、 装置及计算机可读存 储介质 (57)摘要 本申请公开了一种声音检测方法、 装置及计 算机可读存储介质, 该方法包括: 对待检测声音 信号进行分段检测, 得到每段子声音信号的检测 结果, 其中, 每段子声音信号的检测结果包括子 声音信号中发生各个预设声音事件的概率; 基于 每段子声音信号的检测结果, 确定待检测声音信 号中发生的声音事件。 本申请所提供的方法能够 提高声音检测的准确率。 权利要求书3页 说明书8页 附图3页 CN 114512143 A 2022.05.17 CN 114512143 A 1.一种声 音检测方法, 其特 征在于, 所述方法包括: 对待检测声音信号进行分段检测, 得到每段子声音信号的检测结果, 其中, 每段子声音 信号的检测结果包括所述子声 音信号中发生各个预设声 音事件的概率; 基于每段 所述子声 音信号的检测结果, 确定所述待检测声 音信号中发生的声 音事件。 2.根据权利要求1所述的方法, 其特征在于, 所述对待检测声音信号进行分段检测, 得 到每段子声 音信号的检测结果的步骤, 包括: 对每段所述子声 音信号进行如下处 理: 提取所述子声 音信号的声 音特征; 将所述子声音信号的声音特征送入预先训练好的检测网络, 得到所述子声音信号的所 述检测结果。 3.根据权利要求2所述的方法, 其特征在于, 所述提取所述子声音信号的声音特征的步 骤, 包括: 提取所述子声 音信号中每帧声 音信号的声 音特征; 将所述每帧声 音信号的声 音特征进行拼接, 得到所述子声 音信号的声 音特征。 4.根据权利要求2所述的方法, 其特征在于, 在所述对待检测声音信号进行分段检测, 得到每段子声 音信号的检测结果之前, 还 包括: 获取训练数据集, 所述训练数据集包括发生各个所述预设声 音事件的多个声 音信号; 利用所述训练数据集, 对所述检测网络进行训练, 得到所述训练后的检测网络 。 5.根据权利要求4所述的方法, 其特征在于, 所述利用所述训练数据集, 对所述检测网 络进行训练, 得到所述训练后的检测网络的步骤, 包括: 基于目标场景关联的参考音频, 对所述训练数据集中的声音信号进行干扰处理, 以使 所述声音信号的分布特 征与所述目标场景相符; 利用进行 所述干扰处 理后的所述训练数据集对所述检测网络进行训练。 6.根据权利要求5所述的方法, 其特征在于, 所述基于目标场景关联的参考音频, 对所 述训练数据集中的声 音信号进行干扰处 理的步骤, 包括: 所述参考音频包括所述目标场景关联的冲激响应, 利用所述目标场景关联的冲激响应 和所述声 音信号进行 卷积处理; 和/或 所述参考音频包括所述目标场景关联的噪声, 利用所述噪声与 所述声音信号进行叠加 处理。 7.根据权利要求4所述的方法, 其特征在于, 所述预设声音事件包括N个; 所述N为大于1 的整数; 所述训练数据集至少包括N个训练数据子集; 一个所述训练数据子集中的声音信号发 生N个预设声音事件中的一个预设声音事件, 不同训练数据子集中的声音信号发生的预设 声音事件不同; N个训练数据子集中声音信号的数量的最大值与最小值的比值小于或者等于第一阈 值。 8.根据权利要求7所述的方法, 其特征在于, 在所述利用所述训练数据集, 对所述检测 网络进行训练之前, 还 包括: 确定所述 N个训练数据子集中声 音信号的数量的最大值;权 利 要 求 书 1/3 页 2 CN 114512143 A 2响应于所述N个训练数据子集中存在声音信号的数量与 所述最大值的比值小于第 二阈 值的目标训练数据子集, 对所述 目标训练数据子集中的声音信号进行数据扩展处理, 至所 述目标训练数据子集中声音信号的数量与所述最大值的比值等于或大于第二阈值, 所述第 二阈值与所述第一阈值的乘积为1。 9.根据权利要求8所述的方法, 其特征在于, 所述对所述目标训练数据子集中的声音信 号进行数据扩展处 理的步骤, 包括: 对所述目标训练数据子集中的声音信号进行移频处理, 得到新声音信号, 并在所述目 标训练数据子集中增 加所述新声音信号; 或者, 采用生成对抗网络生成所述目标训练数据子集中的声音信号的相似声音信号, 并在所述目标训练数据子集中增 加所述相似声 音信号。 10.根据权利要求2所述的方法, 其特征在于, 所述检测网络包括深度可分离卷积层、 循 环层、 池化层以及线性层, 其中, 所述深度可分离卷积层、 所述循环层、 所述池化层以及所述 线性层的数量均为多个, 且每 个所述深度可分离卷积层连接有所述池化层。 11.根据权利要求1 ‑10任一项所述的方法, 其特征在于, 所述基于每段所述子声音信号 的检测结果, 确定所述待检测声 音信号中发生的声 音事件的步骤, 包括: 将目标声音事件, 确定为所述待检测声音信号中发生的声音事件, 其中, 所述目标声音 事件是所述各个预设声音事件中的声音事件, 且在所有所述子声音信号的检测结果中, 所 述目标声 音事件对应的概 率超过第三阈值的次数超过次数阈值。 12.根据权利要求11所述的方法, 其特征在于, 在所述将目标声音事件, 确定为所述待 检测声音信号中发生的声 音事件之前, 还 包括: 对所有所述子声音信号的检测结果进行平滑 处理, 使得相邻 两段所述子声音信号的所 述检测结果中同一个预设声 音事件对应的概 率的差值在预设范围内。 13.根据权利要求1 ‑10任一项所述的方法, 其特征在于, 所述基于每段所述子声音信号 的检测结果, 确定所述待检测声 音信号中发生的声 音事件的步骤, 包括: 将所有所述子声音信号的检测结果送入整合网络, 得到整合结果, 所述整合结果包括 所述待检测声 音信号中发生各个所述预设声 音事件的置信度; 根据所述整合结果, 确定所述待检测声 音信号中发生的声 音事件。 14.根据权利要求13所述的方法, 其特征在于, 所述根据所述整合结果, 确定所述待检 测声音信号中发生的声 音事件的步骤, 包括: 确定所述整合结果中置信度的最大值; 将所述最大值对应的预设声 音事件, 确定为所述待检测声 音信号中发生的声 音事件。 15.根据权利要求14所述的方法, 其特征在于, 在所述将所述最大值对应的预设声音事 件, 确定为所述待检测声 音信号中发生的声 音事件之前, 还 包括: 判断所述 最大值和第四阈值的大小关系; 所述将所述最大值对应的预设声音事件, 确定为所述待检测声音信号中发生的声音事 件的步骤, 包括: 响应于所述最大值大于或等于所述第 四阈值, 将所述最大值对应的预设声音事件, 确 定为所述待检测声音信号中发生的声音事件; 或, 响应于所述最大值小于所述第四阈值, 确 定所述待检测声 音信号中未发生所述预设声 音事件。权 利 要 求 书 2/3 页 3 CN 114512143 A 3

.PDF文档 专利 声音检测方法、装置及计算机可读存储介质

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 声音检测方法、装置及计算机可读存储介质 第 1 页 专利 声音检测方法、装置及计算机可读存储介质 第 2 页 专利 声音检测方法、装置及计算机可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 20:44:18上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。