专利一种基于分层优化的工业互联网资源调配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211402063.0 (22)申请日 2022.11.10 (71)申请人北京航空航天大学地址 100191 北京市海淀区学院路37号 (72)发明人高庆　张可昕　吕金虎　刘昊　王振乾　 (74)专利代理机构北京天汇航智知识产权代理事务所(普通合伙) 11987 专利代理师陈陈数 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) (54)发明名称一种基于分层优化的工业互联网资源调配方法 (57)摘要本发明公开了一种基于分层优化的工业互联网资源调配方法，包括步骤：对实际工业互联网资源调配网络进行建模，获得图网络模型；搭建信息特征整合编码器，进行数据预处理；搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络，依次串联获得单层级感知决策模块，级联若干模块，获得工业互联网资源调配子图感知决策网络；进行决策，在每次决策轮次中，高层次对低层次结构进行预测完成决策，低层次对高层次结构进行观测完成决策；训练决策网络，得到优化后的工业互联网资源调配子图感知决策网络。该方法能够提高工业互联网多层次工业资源全局同步决策的最优程度，提升单位时间内运输效益价值，降低运输代价损失，降低调配时限。权利要求书2页说明书7页附图1页 CN 115456313 A 2022.12.09 CN 115456313 A 1.一种基于分层优化的工业互联网资源调配方法，其特征在于，包括以下步骤：步骤一，对实际工业互联网资源调配网络进行建模，获得图网络模型；步骤二，根据图网络模型的数据维度，搭建对应维度的信息特征整合编码器，对工业资源包特征属性数据、图网络进行数据预处理；步骤三，搭建特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络，依次串联特征编码网络、基于子图结构的特征注意力计算网络、动作价值分数决策网络，得到单层级感知决策模块；按照工业资源个体层级顺序以及预测过程和观测过程的先后顺序，级联单层级感知决策模块，完成整个基于分层优化的工业互联网资源调配子图感知决策网络搭建；步骤四，利用工业互联网资源调配子图感知决策网络进行决策，在每次决策轮次中，高层次对低层次结构进行预测完成决策，低层次对高层次结构进行观测完成决策；步骤五，利用步骤四获得的决策完成动作状态转移，获取动作奖励，实现工业资源包数据属性更新，将更新获得数据记入元胞数组，并放入经验池；步骤六，从经验池中提取若干元胞数组，作为输入数据传入工业互联网资源调配子图感知决策网络中，获得不同工业资源个体动作价值函数值计算损失函数，完成网络训练。 2.根据权利要求1所述的方法，其特征在于，所述步骤一，所述图网络模型为，并初始化连接关系矩阵以及节点之间的连接权重矩阵，其中，表示运输基站集合，简称节点集合，表示节点之间的运输通路集合，表示节点之间邻接关系集合，，表示连接关系矩阵，表示节点之间的连接权重矩阵。 3.根据权利要求2所述的方法，其特征在于，所述步骤二，所述对工业资源包特征属性数据、图网络进行数据预处理具体为：将属性信息、结构信息、邻接信息输入信息特征整合编码器进行统一编码，对齐输入向量特征维度，形成分层级标准化工业资源个体状态信息矩阵，其中，S是全局工业资源个体状态矩阵，表示信息特征整合编码器函数， X表示工业资源个体的特征属性信息向量，T表示工业资源个体子图拓扑结构属性信息向量与局部工业资源个体重点特征属性信息矩阵， O表示全局工业资源个体子图拓扑结构连接关系矩阵。 4.根据权利要求3所述的方法，其特征在于，所述步骤三，所述特征编码网络由全连接网络组成，对输入的整合编码特征向量获得其在隐空间的表征形式；所述基于子图结构的注意力计算网络通过计算同一特征向量在不同关系空间的特征投影距离，获得不同特征向量的注意力权重矩阵；所述动作价值分数决策网络由两层全连接网络组成，通过获得到的隐空间特征感知向量，完成状态价值评分，并输出结果，作为下一步决策的选择依据。 5.根据权利要求 4所述的方法，其特征在于，所述步骤四具体为：根据重要性层次与效益损失规则的不同将工业资源分为 i个层级结构，每个层级结构具有ni个工业资源包；i越大重要性程度越低，越靠近底层结构；将最底层次 i信息矩阵输入第 i个动作价值子网络模型，计算得出动作价值 qi，按照贪心策略获得 i层级工业资源包决策向量，更新全局决策向量ai，将其与i‑1层次信息矩阵一权　利　要　求　书 1/2 页 2 CN 115456313 A 2同输入第 i‑1个动作价值子网络模型，计算得出动作价值 qi‑1，获得i‑1层级工业资源包决策向量，更新全局决策向量 ai‑1，以此递推，直到完成第2层次工业资源包决策向量，完成整个分层优化中的决策预测部分；从顶层至底层，第一层次工业资源包获得所有层次所预测的决策向量，计算得出决策，第二层次工业资源包观测获得第一层次工业资源数据与3到 i层次预测决策，计算得出决策，以此递推，以相同的传递方式完成1到 i的决策更迭，实现全局全工业资源包单步同步决策。 6.根据权利要求5所述的方法，其特征在于，所述步骤五，所述元胞数组为; 其中，S为全局工业资源个体状态矩阵， A为全局决策向量， O为全局工业资源个体子图拓扑结构连接关系矩阵， R为全局工业资源个体动作奖励价值向量， Y为全局工业资源个体是否完成目标转移标识符。 7.根据权利要求6所述的方法，其特征在于，所述步骤六，所述损失函数为：其中，n为工业资源包总个数，为目标网络动作价值的输出结果，每训练一定单位时间步长更新目标网络参数与动作价值网络参数同步， α为目标网络学习率， ri为第 i个工业资源包在完成一次决策并实现动作转移后所获得的奖励分数， Q_value为工业资源个体动作价值函数值。权　利　要　求　书 2/2 页 3 CN 115456313 A 3

专利 一种基于分层优化的工业互联网资源调配方法

专利一种基于分层优化的工业互联网资源调配方法