专利一种基于增强学习的串行生产系统生产维护联合优化方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110264883.7 (22)申请日 2021.03.11 (65)同一申请的已公布的文献号申请公布号 CN 113112051 A (43)申请公布日 2021.07.13 (73)专利权人同济大学地址 200092 上海市杨浦区四平路1239号 (72)发明人靳文瑞　易琦　周炳海　 (74)专利代理机构上海科盛知识产权代理有限公司 312 25 专利代理师赵继明 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/04(2012.01) G06K 9/62(2022.01) G06F 30/27(2020.01) (56)对比文件 CN 106997488 A,2017.08.01CN 10838 8977 A,2018.08.10 CN 111126905 A,2020.0 5.08 CN 10949 2923 A,2019.0 3.19 CN 111160755 A,2020.0 5.15 US 20183420 30 A1,2018.1 1.29 周炳海等.考虑等待时间约束的不完美生产系统的产出优化. 《北京航空航天大学学报》 .2017,第1972-1979页. 王林等.串行生产系统维护计划与缓冲分配的联合优化. 《计算机集成制造系统》 .2016,第 1296-1304页. Padma Priya R etc. .Investigation of Energy Mana gement and Optimizati on Using Penalty Based Rei nforcement Learn ing Algorithm s for Texti le Industry. 《2020 Internati onal Conference o n Innovative Trends i n Informati on Technology》 .2020, 审查员李慧芳 (54)发明名称一种基于增强学习的串行生产系统生产维护联合优化方法 (57)摘要本发明涉及一种基于增强学习的串行生产系统生产维护联合优化方法，包括：通过马尔可夫链表示串行生产系统的系统状态，构建包括状态空间、动作空间、转移矩阵和成本函数的马尔科夫模型；采用贪心策略求解马尔科夫模型，从动作空间中选取维护策略，构建回放记忆数据集；采用回放记忆数据集对预先建立的神经网络进行迭代训练，直至达到预设的迭代终止条件；采用训练后的神经网络，获取实际串行生产系统的生产维护策略。与现有技术相比，本发明构造马尔可夫决策过程数学模型，可反映生产系统的动态变化，结合神经网络框架和经验回放技术，优化了算法的收敛速度和求解能力，可适用于复杂度高的串行生产系统的动态决策求解需求。权利要求书2页说明书6页附图1页 CN 113112051 B 2022.10.25 CN 113112051 B 1.一种基于增强学习的串行生产系统生产维护联合优化方法，其特征在于，包括以下步骤：通过马尔科夫链表示串行生产系统的系统状态，确定串行生产系统的状态转移概率的计算方法，构建包括状态空间、动作空间、转移矩阵和成本函数的马尔科夫模型；采用贪心策略求解所述马尔科夫模型，从所述动作空间中选取维护策略，构建回放记忆数据集；采用所述回放记忆数据集对预先建立的神经网络进行迭代训练，直至达到预设的迭代终止条件；采用训练后的所述神经网络，获取实际串行生产系统的生产维护策略；所述系统状态的表达式为： s(t)＝[α1(t),..., αM+1(t),b1(t),...,bM(t)] bm(t)＝bm(t‑1)+THm(t)‑THm+1(t) 式中， s(t)为系统状态， t为时间， THm(t)为在时间t机器Mm的产量， Mm为生产系统的第m 台机器， αM+1(t)为机器Mm的运行状态变量， 1表示在在时间t机器m处于加工工件状态，反之为0， bM(t)为在时间t缓冲区Bm的容量；所述串行生产系统的系统状态的转移概率的计算过程包括：计算所述串行生产系统中各机器的状态转移概率，从而计算所述系统状态的转移概率，所述串行生产系统中各机器的状态转移概率的计算表达式为：式中，为时间t的机器状态序列，为各台机器在t时刻的维护决策cm(t)的序列， pm为第m台机器的转移概率；所述系统状态的转移概率的计算表达式为：式中， s(t)为系统在t时刻的状态；所述马尔科夫模型的求解目标是找到最优维护策略π*，最小化长期期望成本，即当选择策略π 时，带折扣因子的期望成本的表达式为：式中，为每个时间单位的决策成本， s为系统状态， Eπ为选择策略π时，带折扣因子的期望成本， γt(0＜γt＜1)为表示折扣因子；所述马尔科夫模型的目标函数的表达式为：式中， s′为下一个时刻的机器状态， V(s ′)为下一个状态s′的值函数。 2.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法，其特征在于，所述THm(t)的计算表达式为：权　利　要　求　书 1/2 页 2 CN 113112051 B 2式中， vm( αM(t))为机器Mm在状态αM(t)下的速度。 3.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法，其特征在于，所述决策成本的计算表达式为：式中， gb为单位库存成本， g‑为单位缺货成本， x‑(t)＝vM+1( αM+1(t))‑THM+1， gm(t)表示维护成本，即 4.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法，其特征在于，所述回放记忆数据集的构建过程包括：有ε 的概率从动作空间随机选取有1‑ε 的概率根据第一算式选取所述第一算式的表达式为：构建经验存进回放记忆数据集Dt＝(e1,....,et)中，为系统在状态s+1时的最优价值函数，为神经网络中函数逼近权重。 5.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法，其特征在于，采用随机梯度下降法对所述神经网络的迭代训练，缩小均方误差，所述均方误差的计算表达式为：式中，表示上一轮迭代的实值权重；所述实值权重的更新表达式为：式中， α ＝1/n， n 为当前迭代次数。 6.根据权利要求5所述的一种基于增强学习的串行生产系统生产维护联合优化方法，其特征在于，所述迭代终止条件为若两组连续实值参数之差的范数小于预设的阈值，则停止。权　利　要　求　书 2/2 页 3 CN 113112051 B 3

专利 一种基于增强学习的串行生产系统生产维护联合优化方法

专利一种基于增强学习的串行生产系统生产维护联合优化方法