说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210997917.8 (22)申请日 2022.08.19 (71)申请人 成都市易算科技有限公司 地址 610000 四川省成 都市高新区府 城大 道西段39 9号7栋2单 元12层120 5号 (72)发明人 丁凤霞 孙陈杰  (74)专利代理 机构 成都启慧金 舟知识产权代理 事务所 (特殊普通合伙) 51299 专利代理师 何媛 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 10/08(2012.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于强化学习算法的零部件供应循环包装 箱配送调度方法 (57)摘要 本发明公开了一种基于强化学习算法的零 部件供应循环包装箱配送调度方法, 通过建立多 中心循环包装箱 配送数学模型; 使用强化学习算 法确定配送方案; 使用真实历史数据验证循环包 装箱配送调度算法。 相较于传统的强化学习算 法, 本发明添加了输入指导层, 使得不用每次计 算都将所有的配送中心数据输入算法, 节约了计 算资源, 提高了求解速度; 本发明添加了嵌入层, 通过数据升维的方式使得输入的配送中心数量 可变, 模型泛化能力强, 求解效果好; 本发明对强 化学习添加了RNN网络, 用于储存模型参数, 使得 问题参数不用重新计算, 提高了求 解速度。 权利要求书2页 说明书8页 附图3页 CN 115358464 A 2022.11.18 CN 115358464 A 1.基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于, 包括以下 步骤: (1)建立多中心循环包 装箱配送数 学模型; (2)使用强化学习算法确定配送方案; (3)使用真实历史数据验证 循环包装箱配送调度算法。 2.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述步骤(1)中通过各中心的库存与需求约束, 求解总运输费用最低的配送方 案, 包括: (1)构建配送费用矩阵: 分别以各中心为横 纵坐标, 用各中心之间的距离填充配送费用 矩阵, 得到配送费用矩阵后, 分别用i中心与j中心之间的配送费用Aij乘上i中心与j中心之 间的配送量xij, 得到总运输里程数最低的目标函数Z: (2)构建库存约束: 由i中心运往各中心的材料k配送量之和 不得高于i中心的库 存量Dik, 得到库存约束: (3)构建需求约束: 由各中心运往j中心的材料k配送量之和 应当高于j中心的需求 量Bj, 得到需求约束: (4)确定配送量: 各中心之间的总配送量xij等于各中心之间各种材料的配送量aijk之 和: 3.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述 步骤(2)中算法主 要包括嵌入层、 输入指导层、 注意力机制以及环境。 4.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述嵌入层将各中心的位置s与库存需求数据d升至高维, 使得配送中心的数 量可变; RNN网络记录了模型的参数, 使 得算法不用每次因为输入的配送中心数据改变而重 新计算参数。 5.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述输入指导层根据各配送中心的库存与需求数据, 选择需要配送的中心输 入至注意力机制, 其具体步骤如下: Step1、 调取 各配送中心的需求与 库存数据;权 利 要 求 书 1/2 页 2 CN 115358464 A 2Step2、 根据嵌入层的数据计算需要配送的中心数量; Step3、 将各配送中心是否需要配送作为权 重输入注意力机制; Step4、 将RN N中记录的历史参数输入注意力机制。 6.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述注意力机制包 含行为者网络actor与批 评家网络 critic两个神经网络 。 7.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述注意力机制中计算 最低配送费用的行为 者网络迭代具体步骤如下: Step1、 在主 线程中用随机 权重θ和随机 权重φ初始化行为 者网络和批 评家网络; Step2、 从M中抽取N个样本问题, 并使用蒙特卡洛模拟来产 生关于当前策略π θ 的可行序 列(采用上 标n来指代第n个实例的变量); Step3、 在所有N个问题的解码结束后, 利用问题n的物流中心位置Sn与物流中心需求量 dn以及目前状态 π按照如下公式来更新 行为者网络的状态 π*(实例问题n的状态 π属于符合库 存与需求约束的状态空间∏); Step4、 更新批判者网络, 以减少蒙特卡洛展开过程中预期奖励与观察到的奖励之间的 差异。 8.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述环境用于促使注意力机制的迭代, 具体步骤如下: Step1: 注意力机制中的行为 者网络将配送方案State传入环境; Step2: 在环境中根据各物流中心之间的配送费用Aij与相应物流中心之间的配送量xij 按照如下公式计算此调度方案所花费总费用Z; Step3: 环境以此调度方案所花费总费用的负值作为奖励Reward反馈给 行为者网络; Step4: 行为 者网络向总调度费用更低的方向迭代。权 利 要 求 书 2/2 页 3 CN 115358464 A 3

.PDF文档 专利 基于强化学习算法的零部件供应循环包装箱配送调度方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于强化学习算法的零部件供应循环包装箱配送调度方法 第 1 页 专利 基于强化学习算法的零部件供应循环包装箱配送调度方法 第 2 页 专利 基于强化学习算法的零部件供应循环包装箱配送调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-17 23:25:48上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。