专利面向海量数据实时处理的云边协同自适应深度推理方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211040427.5 (22)申请日 2022.08.29 (71)申请人北京交通大学地址 100044 北京市海淀区西直门外上园村3号 (72)发明人刘真　寇泽　冯铭泽　贺翔　 (74)专利代理机构北京市商泰律师事务所 11255 专利代理师黄晓军 (51)Int.Cl. G06N 5/04(2006.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 3/10(2006.01) G06F 9/50(2006.01) (54)发明名称面向海量数据实时处理的云边协同自适应深度推理方法 (57)摘要本发明提供了一种面向海量数据实时处理的云边协同自适应深度推理方法。该方法包括：将DNN模型进行模型量化，根据得到的量化模型对DNN模型进行DAG构建；对DAG网络进行可行分割点的搜索，得到优化后的潜在分割点集；基于优化后的潜在分割点集对DNN模型各层在终端设备上运行的累积推理延迟、数据传输延迟和累积量化损失进行数据拟合，利用以带宽为变量的权重函数对DNN模型各层的累积推理延迟、数据传输延迟和累积量化损失的目标函数进行加权优化，得到最优的分割点；根据所述最优分割点将 DNN模型进行分割。本发明考虑到模型量化带来的精度损失，将精度损失和时延根据网络质量的变化进行加权优化，以满足用户在不同的网络质量下对服务质量的不同需求。权利要求书3页说明书10页附图2页 CN 115392467 A 2022.11.25 CN 115392467 A 1.一种面向海量数据实时处理的云边协同自适应深度推理方法，其特征在于，包括：将需要部署的DNN模型进行模型量化，根据得到的量化模型对DNN模型进行有向无环图 DAG构建；对所述DAG网络进行可行分割点的搜索，找到DAG中的所有割点，将符合约束的割点加入到潜在分割点集，对所述潜在分割点集进行优化处理，得到优化后的潜在分割点集；基于优化后的潜在分割点集对DNN模型各层在终端设备上运行的累积推理延迟、数据传输延迟和累积量化损失进行数据拟合，将离散的数据拓展到连续域上，分别得到DNN模型各层的累积推理延迟、数据传输延迟和累积量化损失；利用以带宽为变量的权重函数对所述DNN模型各层的累积推理延迟、数据传输延迟和累积量化损失的目标函数进行加权优化，得到最优的分割点；根据所述最优分割点将所述DNN模型进行分割后，分别在终端设备和云上执行任务推理，并得到推理结果。 2.根据权利要求1所述的方法，其特征在于，所述的将需要部署的DNN模型进行模型量化，根据得到的量化模型对DN N模型进行有向无环图DAG构建，包括：对需要部署的DNN模型进行预训练，通过量化器将预训练后的DNN模型的权重和激活量化为8比特，得到量化模型，只在终端设备上部署量化模型，在云上部署原始DNN模型；根据得到的量化模型对DNN模型进行DAG构建，给定一个DNN模型，构造一个DAG，通过G ＝<V,E>来表示它， V表示DAG中顶点的集合， E表示DAG中边的集合，每个顶点vi∈V对应DNN 模型的某一层，有向边ei＝<vi,vj>∈E表示vj把vi的输出作为它自己的输入，使用di来表示每条边ei的值，其中di表示vi的输出数据大小，将输入层作为v0，将e0＝<v0,v1>的值d0作为原始输入数据大小。 3.根据权利要求2所述的方法，其特征在于，所述的对所述DAG网络进行可行分割点的搜索，找到DAG中的所有割点，将符合约束的割点加入到潜在分割点集，对所述潜在分割点集进行优化处理，得到优化后的潜在分割点集，包括：对于所述DAG网络首先搜索DAG网络中的所有割点，该割点为DAG中的顶点，被移除后将使得DAG不再连接，所述DAG网络中包括多个逻辑块，使用最小割方法在由一个或几个顶点组成的逻辑块中找到具有最小输出数据大小的分割点，在一个逻辑块中找到一个潜在的分割点，所有割点和逻辑块内的所有最小割点分别构成割点集和最小割集；如果输出数据大小满足di<d0，则将割点集中的潜在分割点添加到潜在分割点集中，在最小割集中，当时，潜在分割点也被添加到潜在分割点集其中是通过最小割方法获得的逻辑块内的输出数据大小的最小和；对于链式拓扑DNN和DAG网络，移除中连续并具有相同输出数据大小的分割点；对潜在分割点集进行优化处理，从潜在分割点集中删除神经网络BN层，去除连续且数据输出量相等的点，得到优化后的潜在分割点集 4.根据权利要求3所述的方法，其特征在于，所述的基于优化后的潜在分割点集对DNN 模型各层在终端设备上运行的累积推理延迟、数据传输延迟和累积量化损失进行数据拟合，将离散的数据拓展到连续域上，分别得到DNN模型各层的累积推理延迟、数据传输延迟和累积量化损失，包括：设置DNN模型具有N层，其中为非负整数集，设B为网络带宽，用di表示第i层的输出数据权　利　要　求　书 1/3 页 2 CN 115392467 A 2大小，设代表第i层的数据传输延迟，用表示在终端设备上执行DNN模型的第i 层的推理延迟；将wi(·)和ai(·)表示为第i层给定位宽的权重和激活，通过使用均方误差函数MSE，分别用和来表示第i层的权重和激活的量化误差；设代表第i层的量化权重损失和激活的总和，即假设DNN模型在x层分割，将DNN模型第x层的目标函数定义如下：其中表示从输入层到第x层的累积推理延迟，是第x层的数据传输延迟，是从输入层到第x层的累积量化损失，自变量x是DN N模型的分割层，将定义为：通过最小 ‑最大方法归一化延迟和损失，使式(2)中各值具有相同的数值维度，定义为：其中X分别代表标准化前tedge、 ttrans和lquant的值， Xmin和Xmax分别表示tedge、 ttrans和lquant 中的最小和最大值， Xnormal表示归一化值，介于0和1之间；在潜在分割点的集合中，潜在分割点对应DNN模型中的层，层的输出数据大小g(x)随层x值的递增呈指数递减，累积推理时间f(x)和累积量化损失h(x)随层 x值的递增呈线性递增，用凸函数f、 g和h 分别表示累积推理时延、数据传输延迟和累积量化损失， f和h是递增的线性函数， g是递减的凸函数，目标函数重写为：的优化是一个凸优化问题。 5.根据权利要求4所述的方法，其特征在于，所述的利用以带宽为变量的权重函数对所述DNN模型各层的累积推理延迟、数据传输延迟和累积量化损失的目标函数进行加权优化，得到最优的分割点，包括：利用以带宽为变量的权重函数对所述DNN模型各层的累积推理延迟、数据传输延迟和累积量化损失的目标函数进行加权优化，将改写为：其中， ω(B)以带宽B为变量，表示为 ω(B)与带宽成比例， ω(B)的值介于0和1之间， k控制ω(B)的平滑度，当带宽较小时，延迟在目标函数中的权重较大，而当带宽较大时，量化损失的权重较大；加权优化后的目标函数为：权　利　要　求　书 2/3 页 3 CN 115392467 A 3

专利 面向海量数据实时处理的云边协同自适应深度推理方法

专利面向海量数据实时处理的云边协同自适应深度推理方法