专利基于深度强化学习的智能排产动态调度方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111390067.7 (22)申请日 2021.11.22 (71)申请人厦门深度赋智科技有限公司地址 361000 福建省厦门市软件园三期诚毅北大街50号404室A005 (72)发明人宇文东方　万光华　 (74)专利代理机构北京知果之信知识产权代理有限公司 1 1541 代理人高科 (51)Int.Cl. G06Q 10/06(2012.01) G06F 30/27(2020.01) G06Q 50/04(2012.01) G06F 111/04(2020.01) (54)发明名称基于深度强化学习的智能排产动态调度方法 (57)摘要本发明涉及智能排产技术领域，公开了基于深度强化学习的智能排产动态调度方法，包括以下方法： 1)、读取信息； 2)、数据处理； 3)、搭建深度强化学习框架； 4)、考虑各工序的开始时间、结束时间， 5)、将订单结束时间拆分到各工序，搭建深度强化学习框架，使用Asynchronous Advantage Actor Critic(A3C)模型，除了要求奖励值最大，还会要求每次选择动作输出的熵最大，通过这种做法让策略随机化，输出的每一个动作的概率尽可能分散，而不是集中在一个动作上，使用A3C的深度学习框架，求解速度较快，可支持工厂每日做两次智能排产的使用要求。权利要求书2页说明书6页附图3页 CN 114154821 A 2022.03.08 CN 114154821 A 1.基于深度强化学习的智能排产动态调度方法，其特征在于，包括以下步骤： S1：读取当前时刻工厂接收的订单情况、物料数量、工人班次日历、产线生产日历； S2：对读进来的原始数据进行处理，根据订单交付日期及所需物料情况区分短期计划和长期计划； S3：搭建深度强化学习框架，同时将产线、工序、产能特征向量输入训练后得到目标智能体的目标策略网络； S4：考虑各工序的开始时间、结束时间，各产线、机器的时间日历； S5：将订单结束时间拆分到各工序。 2.如权利要求1所述的基于深度强化学习的智能排产动态调度方法，其特征在于：在S1 中，其中订单数据中包含所需产品的数量及产品交付截止时间，每个产品完成需要经过若干道工序，各工序间有一定的串并行顺序，且产线上切换机器或物料需要一定的设备转移时间，串行的工序间通常有最小等待时间或最大等待时间约束。 3.如权利要求2所述的基于深度强化学习的智能排产动态调度方法，其特征在于：在S2 中，短期计划需要以分钟为单位精细处理，将这部分订单中的所有工序全部排到产线上；长期计划的订单只需评估物料数量、产线、机器、产能资源情况，存在资源瓶颈时给出预警，无资源瓶颈时提供以天为单位的粗略排产结果即可，其次计算出工人、机器、产线在每个时间节点上的数量，结合工人班次日历和产线生产日历生成以分钟为单位的资源时间轴。 4.如权利要求3所述的基于深度强化学习的智能排产动态调度方法，其特征在于：在S3 中，使用Asynchronous Advantage Actor Critic(A 3C)模型，除了要求奖励值最大，还会要求每次选择动作输出的熵最大，通过这种做法让策略随机化，输出的每一个动作的概率尽可能分散，而不是集中在一个动作上。 5.如权利要求4所述的基于深度强化学习的智能排产动态调度方法，其特征在于：在S3 中，得到所述当前时刻目标策略网络中的深度神经网络的调度目标，并对产线、工序、产能状态特征向量进行处理后输入分类函数得到每一个优化目标对应的选择概率。 6.如权利要求5所述的基于深度强化学习的智能排产动态调度方法，其特征在于：对于 S1中描述的约束，引入工序最早开始时间和期望结束时间，将所有约束全部转化为工序、产线上的时间轴，来统一控制、更新。 7.如权利要求6所述的基于深度强化学习的智能排产动态调度方法，其特征在于：在S4 中包括以下步骤： S41：首先对于有前置工序要求的部分，需要初始化开始时间为一个较大值； S42：当所有前置工序全部完成时，更新该开始时间为其所有前置工序的最大结束时间； S43：其次对于有最小等待时间或最大等待时间约束的情况，当前置工序完成后，开始时间需更新为前置工序的结束时间加最小/最大等待时间。 8.如权利要求7所述的基于深度强化学习的智能排产动态调度方法，其特征在于：在S5 中，由于深度强化学习模型需要反复更新奖励值，每个订单都需要尽可能保证在交货日期前完成，并且考虑订单的重要程度，所以需要按照整体可用时间按照一定规则拆分到各工序可用时间，根据订单是否紧急等静态属性设计奖励函数。 9.如权利要求8所述的基于深度强化学习的智能排产动态调度方法，其特征在于：离线权　利　要　求　书 1/2 页 2 CN 114154821 A 2训练包括以下步骤： S01：生成每条产线作为一个智能体的目标策略网络； S02：更新奖励值使用的奖励函数网络； S03：存储每个中间状态的状态特征向量，并对各个网络进行参数初始。在每个训练周期内，随机生成新的训练环境，并用A3C对所有智能体进行离线预训练，根据每个智能体的目标策略网络，生成最佳的工序 ‑产线分配方案，并根据各产线考虑自身的最晚结束时间、空闲时间占比、各工序是否结束时间晚于预期目标决策状态，生成奖励函数网络，通过最小平方误差损失函数(MSE)更新目标智能体的目标状态价值网络和状态特征向量，此过程不断进行，直到最终所有工序的分配方案满足使用需求。 10.如权利要求9所述的基于深度强化学习的智能排产动态调度方法，其特征在于：在智能排产过程中，首先读取当前时刻生产线调度特征向量，再根据前序工序和物料情况筛选当前可执行工序向量，同时利用产线和工序向量作为输入，在深度强化学习智能体网络中训练，得到当前时刻的工序 ‑产线指派规则，再根据所有工序是否都已分配至产线，若没有，则需根据时间轴移动规则更新时间，再根据奖励值更新智能体奖励网络，最后再根据已完成任务更新产线和工序，进入到新的工序 ‑产线指派规则，若有，则继续判定是否迭代到最大次数或目标函数已收敛，若是，则输出深度强化学习智能排产结果，若不是，则重新读取生产线调度特征向量，直到输出深度强化学习智能排产结果。权　利　要　求　书 2/2 页 3 CN 114154821 A 3

专利 基于深度强化学习的智能排产动态调度方法

专利基于深度强化学习的智能排产动态调度方法