说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
联系我们
问题反馈
文件分类
联系我们
问题反馈
批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210997917.8 (22)申请日 2022.08.19 (71)申请人 成都市易算科技有限公司 地址 610000 四川省成 都市高新区府 城大 道西段39 9号7栋2单 元12层120 5号 (72)发明人 丁凤霞 孙陈杰 (74)专利代理 机构 成都启慧金 舟知识产权代理 事务所 (特殊普通合伙) 51299 专利代理师 何媛 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 10/06(2012.01) G06Q 10/08(2012.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 基于强化学习算法的零部件供应循环包装 箱配送调度方法 (57)摘要 本发明公开了一种基于强化学习算法的零 部件供应循环包装箱配送调度方法, 通过建立多 中心循环包装箱 配送数学模型; 使用强化学习算 法确定配送方案; 使用真实历史数据验证循环包 装箱配送调度算法。 相较于传统的强化学习算 法, 本发明添加了输入指导层, 使得不用每次计 算都将所有的配送中心数据输入算法, 节约了计 算资源, 提高了求解速度; 本发明添加了嵌入层, 通过数据升维的方式使得输入的配送中心数量 可变, 模型泛化能力强, 求解效果好; 本发明对强 化学习添加了RNN网络, 用于储存模型参数, 使得 问题参数不用重新计算, 提高了求 解速度。 权利要求书2页 说明书8页 附图3页 CN 115358464 A 2022.11.18 CN 115358464 A 1.基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于, 包括以下 步骤: (1)建立多中心循环包 装箱配送数 学模型; (2)使用强化学习算法确定配送方案; (3)使用真实历史数据验证 循环包装箱配送调度算法。 2.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述步骤(1)中通过各中心的库存与需求约束, 求解总运输费用最低的配送方 案, 包括: (1)构建配送费用矩阵: 分别以各中心为横 纵坐标, 用各中心之间的距离填充配送费用 矩阵, 得到配送费用矩阵后, 分别用i中心与j中心之间的配送费用Aij乘上i中心与j中心之 间的配送量xij, 得到总运输里程数最低的目标函数Z: (2)构建库存约束: 由i中心运往各中心的材料k配送量之和 不得高于i中心的库 存量Dik, 得到库存约束: (3)构建需求约束: 由各中心运往j中心的材料k配送量之和 应当高于j中心的需求 量Bj, 得到需求约束: (4)确定配送量: 各中心之间的总配送量xij等于各中心之间各种材料的配送量aijk之 和: 3.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述 步骤(2)中算法主 要包括嵌入层、 输入指导层、 注意力机制以及环境。 4.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述嵌入层将各中心的位置s与库存需求数据d升至高维, 使得配送中心的数 量可变; RNN网络记录了模型的参数, 使 得算法不用每次因为输入的配送中心数据改变而重 新计算参数。 5.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述输入指导层根据各配送中心的库存与需求数据, 选择需要配送的中心输 入至注意力机制, 其具体步骤如下: Step1、 调取 各配送中心的需求与 库存数据;权 利 要 求 书 1/2 页 2 CN 115358464 A 2Step2、 根据嵌入层的数据计算需要配送的中心数量; Step3、 将各配送中心是否需要配送作为权 重输入注意力机制; Step4、 将RN N中记录的历史参数输入注意力机制。 6.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述注意力机制包 含行为者网络actor与批 评家网络 critic两个神经网络 。 7.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述注意力机制中计算 最低配送费用的行为 者网络迭代具体步骤如下: Step1、 在主 线程中用随机 权重θ和随机 权重φ初始化行为 者网络和批 评家网络; Step2、 从M中抽取N个样本问题, 并使用蒙特卡洛模拟来产 生关于当前策略π θ 的可行序 列(采用上 标n来指代第n个实例的变量); Step3、 在所有N个问题的解码结束后, 利用问题n的物流中心位置Sn与物流中心需求量 dn以及目前状态 π按照如下公式来更新 行为者网络的状态 π*(实例问题n的状态 π属于符合库 存与需求约束的状态空间∏); Step4、 更新批判者网络, 以减少蒙特卡洛展开过程中预期奖励与观察到的奖励之间的 差异。 8.根据权利要求1所述的基于强化学习算法的零部件供应循环包装箱配送调度方法, 其特征在于: 所述环境用于促使注意力机制的迭代, 具体步骤如下: Step1: 注意力机制中的行为 者网络将配送方案State传入环境; Step2: 在环境中根据各物流中心之间的配送费用Aij与相应物流中心之间的配送量xij 按照如下公式计算此调度方案所花费总费用Z; Step3: 环境以此调度方案所花费总费用的负值作为奖励Reward反馈给 行为者网络; Step4: 行为 者网络向总调度费用更低的方向迭代。权 利 要 求 书 2/2 页 3 CN 115358464 A 3
专利 基于强化学习算法的零部件供应循环包装箱配送调度方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-17 23:25:48
上传分享
举报
下载
原文档
(745.6 KB)
分享
友情链接
GM-T 0105-2021 软件随机数发生器设计指南.pdf
GM-T 0018-2012 密码设备应用接口规范.pdf
三级等保测评指导书(整合版).xlsx
GB-T 42209-2022 液晶显示屏用点对点 P2P 信号接口 传输协议.pdf
DB13-T 5617-2022 精细化工反应安全风险评估导则 河北省.pdf
DB35-T 1437-2014 多花黄精栽培技术规程 福建省.pdf
GB-T 29157-2012 浮法玻璃生产生命周期评价技术规范 产品种类规则.pdf
GB-T 42129-2022 数据管理能力成熟度评估方法.pdf
GB-T 23696-2017 证券及相关金融工具 交易所和市场识别码.pdf
蔷薇灵动 微隔离与零信任实战之路.pdf
GB-T 32039-2015 石油化工企业节能项目经济评价方法.pdf
DB52-T 1542.3-2021 政务服务平台 第3部分:运维管理规范 贵州省.pdf
中国传媒大学 网络黑产协同治理研究报告.pdf
GB-T 8335-2011 气瓶专用螺纹.pdf
DB37-T 5157-2020 住宅工程质量常见问题防控技术标准 山东省.pdf
GB-T 34079.1-2021 基于云计算的电子政务公共平台服务规范 第1部分:服务分类与编码.pdf
DB32-T 4281-2022 江苏省建筑工程施工现场专业人员配备标准 江苏省.pdf
GB-T 31052.1-2014 起重机械 检查与维护规程 第1部分:总则.pdf
GB-T 31200-2014 电梯、自动扶梯和自动人行道乘用图形标志及其使用导则.pdf
T-CSAE 72—2018 汽车涂层耐紫外线穿透性能测试及评价方法.pdf
交流群
-->
1
/
3
14
评价文档
赞助1.5元 点击下载(745.6 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。