专利 基于强化学习算法的零部件供应循环包装箱配送调度方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210997917.8 (22)申请日 2022.08.19 (71)申请人成都市易算科技有限公司地址 610000 四川省成都市高新区府城大道西段39 9号7栋2单元12层120 5号 (72)发明人丁凤霞　孙陈杰　 (74)专利代理机构成都启慧金舟知识产权代理事务所 (特殊普通合伙) 51299 专利代理师何媛 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 10/08(2012.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称基于强化学习算法的零部件供应循环包装箱配送调度方法 (57)摘要本发明公开了一种基于强化学习算法的零部件供应循环包装箱配送调度方法，通过建立多中心循环包装箱配送数学模型；使用强化学习算法确定配送方案；使用真实历史数据验证循环包装箱配送调度算法。相较于传统的强化学习算法，本发明添加了输入指导层，使得不用每次计算都将所有的配送中心数据输入算法，节约了计算资源，提高了求解速度；本发明添加了嵌入层，通过数据升维的方式使得输入的配送中心数量可变，模型泛化能力强，求解效果好；本发明对强化学习添加了RNN网络，用于储存模型参数，使得问题参数不用重新计算，提高了求解速度。权利要求书2页说明书8页附图3页 CN 115358464 A 2022.11.18 CN 115358464 A 1.基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于，包括以下步骤： (1)建立多中心循环包装箱配送数学模型； (2)使用强化学习算法确定配送方案； (3)使用真实历史数据验证循环包装箱配送调度算法。 2.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述步骤(1)中通过各中心的库存与需求约束，求解总运输费用最低的配送方案，包括： (1)构建配送费用矩阵：分别以各中心为横纵坐标，用各中心之间的距离填充配送费用矩阵，得到配送费用矩阵后，分别用i中心与j中心之间的配送费用Aij乘上i中心与j中心之间的配送量xij，得到总运输里程数最低的目标函数Z： (2)构建库存约束：由i中心运往各中心的材料k配送量之和不得高于i中心的库存量Dik，得到库存约束： (3)构建需求约束：由各中心运往j中心的材料k配送量之和应当高于j中心的需求量Bj，得到需求约束： (4)确定配送量：各中心之间的总配送量xij等于各中心之间各种材料的配送量aijk之和： 3.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述步骤(2)中算法主要包括嵌入层、输入指导层、注意力机制以及环境。 4.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述嵌入层将各中心的位置s与库存需求数据d升至高维，使得配送中心的数量可变； RNN网络记录了模型的参数，使得算法不用每次因为输入的配送中心数据改变而重新计算参数。 5.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述输入指导层根据各配送中心的库存与需求数据，选择需要配送的中心输入至注意力机制，其具体步骤如下： Step1、调取各配送中心的需求与库存数据；权　利　要　求　书 1/2 页 2 CN 115358464 A 2Step2、根据嵌入层的数据计算需要配送的中心数量； Step3、将各配送中心是否需要配送作为权重输入注意力机制； Step4、将RN N中记录的历史参数输入注意力机制。 6.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述注意力机制包含行为者网络actor与批评家网络 critic两个神经网络。 7.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述注意力机制中计算最低配送费用的行为者网络迭代具体步骤如下： Step1、在主线程中用随机权重θ和随机权重φ初始化行为者网络和批评家网络； Step2、从M中抽取N个样本问题，并使用蒙特卡洛模拟来产生关于当前策略π θ 的可行序列(采用上标n来指代第n个实例的变量)； Step3、在所有N个问题的解码结束后，利用问题n的物流中心位置Sn与物流中心需求量 dn以及目前状态 π按照如下公式来更新行为者网络的状态 π*(实例问题n的状态 π属于符合库存与需求约束的状态空间∏)； Step4、更新批判者网络，以减少蒙特卡洛展开过程中预期奖励与观察到的奖励之间的差异。 8.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法，其特征在于：所述环境用于促使注意力机制的迭代，具体步骤如下： Step1：注意力机制中的行为者网络将配送方案State传入环境； Step2：在环境中根据各物流中心之间的配送费用Aij与相应物流中心之间的配送量xij 按照如下公式计算此调度方案所花费总费用Z； Step3：环境以此调度方案所花费总费用的负值作为奖励Reward反馈给行为者网络； Step4：行为者网络向总调度费用更低的方向迭代。权　利　要　求　书 2/2 页 3 CN 115358464 A 3

专利 基于强化学习算法的零部件供应循环包装箱配送调度方法

专利基于强化学习算法的零部件供应循环包装箱配送调度方法