专利卷积神经网络压缩方法、装置及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111645899.9 (22)申请日 2021.12.3 0 (71)申请人以萨技术股份有限公司地址 266000 山东省青岛市黄岛区灵山卫街道办事处灵岩路7 7号 (72)发明人李心慧　石柱国　李凡平　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 代理人刘文强 (51)Int.Cl. G06N 3/063(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) (54)发明名称卷积神经网络压缩方法、装置及电子设备 (57)摘要本发明提供了一种卷积神经网络压缩方法、装置及电子设备，该方法包括：获取目标应用场景的目标训练样本集；采用方差缩放方法初始化待压缩神经网络模型的权重，得到待压缩神经网络模型的初始权重向量；以预设稀疏度作为约束条件，确定初始权重向量对应的权重优化向量，并根据权重优化向量计算待压缩神经网络模型中所有连接的灵敏度；根据预设稀疏度和灵敏度对待压缩神经网络模型进行剪枝，得到稀疏神经网络模型；使用目标训练样本集训练稀疏神经网络模型，直至得到训练完成的目标神经网络模型。本发明可以在保证压缩后模型的准确性的同时提高模型压缩的效率。权利要求书3页说明书11页附图2页 CN 114330690 A 2022.04.12 CN 114330690 A 1.一种卷积神经网络压缩方法，其特征在于，所述方法包括：获取目标应用场景的目标训练样本集；其中，所述目标训练样本集是基于所述目标应用场景对应的待压缩神经网络模型的初始训练样本集确定的；采用方差缩放方法初始化所述待压缩神经网络模型的权重，得到所述待压缩神经网络模型的初始权重向量；以预设稀疏度作为约束条件，确定所述初始权重向量对应的权重优化向量，并根据所述权重优化向量计算所述待压缩神经网络模型中所有连接的灵敏度；其中，所述灵敏度用于表征所述待压缩神经网络模型中各个网络层的连接的重要程度；根据所述预设稀疏度和所述灵敏度对所述待压缩神经网络模型进行剪枝，得到稀疏神经网络模型；其中，所述稀疏神经网络模型的权重是根据所述预设稀疏度和所述灵敏度确定出来的；使用所述目标训练样本集训练所述稀疏神经网络模型，直至得到训练完成的目标神经网络模型；其中，所述目标神经网络模型用于对所述目标应用场景对应的数据进行处理。 2.根据权利要求1所述的方法，其特征在于，获取目标样本集的步骤，包括：对所述初始训练样本集进行采样，得到所述目标样本集其中， D代表所述目标样本集， xi代表第i个样本， yi代表第i个样本对应的标签， i代表当前批次， n代表所述目标样本集的样本数量。 3.根据权利要求2所述的方法，其特征在于，所述方法还包括：将所述待压缩神经网络模型的剪枝定义为以下公式的约束优化问题： s.t.w∈Rm， c∈{0， 1}m， ||c||0≤k 其中， L(·)表示整体损失函数， l( ·)表示部分损失函数， ⊙表示哈达玛乘积， c表示所述权重优化向量， w表示所述初始权重向量， || ·||0表示标准的L0范数， m表示所述待压缩神经网络模型的参数总数， {0， 1}m表示元素只有0和1的m维向量， k表示所述预设稀疏度。 4.根据权利要求3所述的方法，其特征在于，以预设稀疏度作为约束条件，确定所述初始权重向量对应的权重优化向量，并根据所述权重优化向量计算所述待压缩神经网络模型中所有连接的灵敏度的步骤，包括：对于所述待压缩神经网络模型中的每一个连接，采用以下公式计算所述整体损失函数关于所述权重优化向量的导数以近似表征移除连接对所述待压缩神经网络模型的损失的影响： s.t.w∈Rm， c∈{0， 1}m， ||c||0≤k 其中， gj(w； D)表示连接j对应的整体损失函数关于权重优化向量的导数值， ej表示连接 j的指示向量；根据计算得到的每一个连接对应的导数值，采用以下公式计算所述待压缩神经网络模权　利　要　求　书 1/3 页 2 CN 114330690 A 2型中每一个连接的灵敏度：其中， sj表示连接j的灵敏度， |gj(w； D)|表示连接j对应的导数值的绝对值， N表示所述待压缩神经网络模型的连接数量。 5.根据权利要求4所述的方法，其特征在于，根据所述预设稀疏度和所述灵敏度对所述待压缩神经网络模型进行剪枝，得到稀疏神经网络模型的步骤，包括：按照所述灵敏度由大到小的顺序对所述待压缩神经网络模型中的所有连接进行排序，并保留排序结果中的前k个连接，得到第一稀疏神经网络模型；根据所述预设稀疏度和所述排序结果，对所述第一稀疏神经网络模型中各个网络层的连接进行加权处理，得到所述稀疏神经网络模型。 6.根据权利要求5所述的方法，其特征在于，根据所述预设稀疏度和所述排序结果，对所述第一稀疏神经网络模型中各个网络层的连接进行加权处理，得到所述稀疏神经网络模型的步骤，包括：采用如下公式计算所述前k个连接中的每一个连接对应的优化权重值：其中， wi’表示第i个连接的优化权重值；为所述前k个连接中的每一个连接对应分配所述优化权重值，得到所述稀疏神经网络模型。 7.根据权利要求1 ‑6任一项所述的方法，其特征在于，使用所述目标训练样本集训练所述稀疏神经网络模型，直至得到训练完成的目标神经网络模型的步骤，包括：将所述目标训练样本集中的所有样本输入所述稀疏神经网络模型；根据所述稀疏神经网络模型的预测结果和所述目标训练样本集中的所有样本对应的标签计算损失函数值，直至迭代次数超过预设次数或损失函数值小于预设值，停止训练，得到训练完成的目标神经网络模型。 8.一种卷积神经网络压缩装置，其特征在于，所述装置包括：样本获取模块，用于获取目标应用场景的目标训练样本集；其中，所述目标训练样本集是基于所述目标应用场景对应的待压缩神经网络模型的初始训练样本集确定的；初始化模块，用于采用方差缩放方法初始化所述待压缩神经网络模型的权重，得到所述待压缩神经网络模型的初始权重向量；灵敏度计算模块，用于以预设稀疏度作为约束条件，确定所述初始权重向量对应的权重优化向量，并根据所述权重优化向量计算所述待压缩神经网络模型中所有连接的灵敏度；其中，所述灵敏度用于表征所述待压缩神经网络模型中各个网络层的连接的重要程度；剪枝模块，用于根据所述预设稀疏度和所述灵敏度对所述待压缩神经网络模型进行剪枝，得到稀疏神经网络模型；其中，所述稀疏神经网络模型的权重是根据所述预设稀疏度和所述灵敏度确定出来的；训练模块，用于使用所述目标训练样本集训练所述稀疏神经网络模型，直至得到训练完成的目标神经网络模型；其中，所述目标神经网络模型用于对所述目标应用场景对应的权　利　要　求　书 2/3 页 3 CN 114330690 A 3

专利 卷积神经网络压缩方法、装置及电子设备

专利卷积神经网络压缩方法、装置及电子设备