说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111390067.7 (22)申请日 2021.11.22 (71)申请人 厦门深度赋智科技有限公司 地址 361000 福建省厦门市软件园三期诚 毅北大街50号404室A005 (72)发明人 宇文东方  万光华  (74)专利代理 机构 北京知果之信知识产权代理 有限公司 1 1541 代理人 高科 (51)Int.Cl. G06Q 10/06(2012.01) G06F 30/27(2020.01) G06Q 50/04(2012.01) G06F 111/04(2020.01) (54)发明名称 基于深度强化学习的智能排产动态调度方 法 (57)摘要 本发明涉及智能排产技术领域, 公开了基于 深度强化学习的智能排产动态调度方法, 包括以 下方法: 1)、 读取信息; 2)、 数据处理; 3)、 搭建深 度强化学习框架; 4)、 考虑各工序的开始时间、 结 束时间, 5)、 将订单结束时间拆分到 各工序, 搭建 深度强化学习框架, 使用Asynchronous   Advantage  Actor Critic(A3C)模型, 除了要求 奖励值最大, 还会要求每次选择动作输出的熵最 大, 通过这种做法让策略随机化, 输出的每一个 动作的概率尽可能分散, 而不是集中在一个动作 上, 使用A3C的深度学习框架, 求解速度较快, 可 支持工厂每日做两次智能排产的使用要求。 权利要求书2页 说明书6页 附图3页 CN 114154821 A 2022.03.08 CN 114154821 A 1.基于深度强化学习的智能排产动态调度方法, 其特 征在于, 包括以下步骤: S1: 读取当前时刻工厂接收的订单情况、 物料 数量、 工人班次日历、 产线生产日历; S2: 对读进来的原始数据进行处理, 根据订单交付日期及所需物料情况区分短期计划 和长期计划; S3: 搭建深度强化学习框架, 同时将产线、 工序、 产能特征向量输入训练后得到目标智 能体的目标 策略网络; S4: 考虑各工序的开始时间、 结束时间, 各产线、 机器的时间日历; S5: 将订单 结束时间拆分到各工序。 2.如权利要求1所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 在S1 中, 其中订单数据中包含所需产品的数量及产品交付截止时间, 每个产品完成需要经过若 干道工序, 各工序间有一定的串并行顺序, 且产线上切换机器或物料需要一定的设备转移 时间, 串行的工序间通常有最小等待时间或最大等待时间约束。 3.如权利要求2所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 在S2 中, 短期计划需要以分钟为单位精细处理, 将这部 分订单中的所有工序全部排到产线 上; 长 期计划的订单只需评估物料数量、 产线、 机器、 产能资源情况, 存在资源瓶颈时给出预警, 无 资源瓶颈时提供以天为单位的粗略排产结果即可, 其次计算出工人、 机器、 产线在每个时间 节点上的数量, 结合工人班次日历和产线生产日历生成以分钟为单位的资源时间轴。 4.如权利要求3所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 在S3 中, 使用Asynchronous  Advantage  Actor Critic(A 3C)模型, 除了要 求奖励值最大, 还会要 求每次选择动作输出 的熵最大, 通过这种做法让策略随机化, 输出 的每一个动作的概率尽 可能分散, 而不是集中在一个动作上。 5.如权利要求4所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 在S3 中, 得到所述当前时刻目标策略网络中的深度神经网络的调度目标, 并对产线、 工序、 产能 状态特征向量进行处 理后输入分类函数 得到每一个优化目标对应的选择概 率。 6.如权利要求5所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 对于 S1中描述的约束, 引入工序最早开始时间和期 望结束时间, 将所有约束全部转化为工序、 产 线上的时间轴, 来统一控制、 更新。 7.如权利要求6所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 在S4 中包括以下步骤: S41: 首先对于有前置 工序要求的部分, 需要初始化 开始时间为 一个较大值; S42: 当所有前置工序全部完成时, 更新该开始时间为其所有前置工序的最大结束时 间; S43: 其次对于有最小等待时间或最大等待时间约束的情况, 当前置工序完成后, 开始 时间需更新 为前置工序的结束时间加最小/最大等待时间。 8.如权利要求7所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 在S5 中, 由于深度强化学习模型需要反复更新奖励值, 每个订单都需要尽可能保证在交货日期 前完成, 并且考虑订单 的重要程度, 所以需要按照整体可用时间按照一定规则拆分到各工 序可用时间, 根据订单 是否紧急等静态属性设计奖励函数。 9.如权利要求8所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 离线权 利 要 求 书 1/2 页 2 CN 114154821 A 2训练包括以下步骤: S01: 生成每条产线作为 一个智能体的目标 策略网络; S02: 更新奖励值使用的奖励函数网络; S03: 存储每个中间状态的状态特 征向量, 并对各个网络进行参数初始。 在每个训练周期内, 随机生成新的训练环境, 并用A3C对所有智能体进行离线预训练, 根据每个智能体的目标策略网络, 生成最佳的工序 ‑产线分配方案, 并根据各产线考虑自身 的最晚结束时间、 空闲时间占比、 各工序是否结束时间晚于预期目标决策状态, 生成奖励函 数网络, 通过最小平方误差损失函数(MSE)更新目标智能体的目标状态价值网络和 状态特 征向量, 此 过程不断进行, 直到最终所有工序的分配方案满足使用需求。 10.如权利要求9所述的基于深度强化学习的智能排产动态调度方法, 其特征在于: 在 智能排产过程中, 首先读取当前时刻生产线调度特征向量, 再根据前序工序和物料情况筛 选当前可执行工序向量, 同时利用产线和工序向量作为输入, 在深度强化学习智能体网络 中训练, 得到当前时刻的工序 ‑产线指派规则, 再根据所有工序是否都已分配至产线, 若没 有, 则需根据时间轴移动规则更新时间, 再根据奖励值更新智能体奖励网络, 最后再根据已 完成任务更新产线和工序, 进入到新的工序 ‑产线指派规则, 若有, 则继续判定是否迭代到 最大次数或目标函数已收敛, 若是, 则输出深度强化学习智能排产结果, 若不是, 则重新读 取生产线调度特 征向量, 直到 输出深度强化学习智能排产结果。权 利 要 求 书 2/2 页 3 CN 114154821 A 3

.PDF文档 专利 基于深度强化学习的智能排产动态调度方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于深度强化学习的智能排产动态调度方法 第 1 页 专利 基于深度强化学习的智能排产动态调度方法 第 2 页 专利 基于深度强化学习的智能排产动态调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:16:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。