说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110264883.7 (22)申请日 2021.03.11 (65)同一申请的已公布的文献号 申请公布号 CN 113112051 A (43)申请公布日 2021.07.13 (73)专利权人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 靳文瑞 易琦 周炳海  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 专利代理师 赵继明 (51)Int.Cl. G06Q 10/04(2012.01) G06Q 50/04(2012.01) G06K 9/62(2022.01) G06F 30/27(2020.01) (56)对比文件 CN 106997488 A,2017.08.01CN 10838 8977 A,2018.08.10 CN 111126905 A,2020.0 5.08 CN 10949 2923 A,2019.0 3.19 CN 111160755 A,2020.0 5.15 US 20183420 30 A1,2018.1 1.29 周炳海等.考虑等待时间约束的不完 美生产 系统的产出优化. 《北京航空航天大 学学报》 .2017,第1972-1979页. 王林等.串行生产系统维护计划与缓冲分配 的联合优化. 《计算机集成制造系统》 .2016,第 1296-1304页. Padma Priya R etc. .Investigation of Energy Mana gement and Optimizati on Using Penalty Based Rei nforcement Learn ing Algorithm s for Texti le Industry. 《2020 Internati onal Conference o n Innovative Trends i n Informati on Technology》 .2020, 审查员 李慧芳 (54)发明名称 一种基于增强学习的串行生产系统生产维 护联合优化方法 (57)摘要 本发明涉及一种基于增强学习的串行生产 系统生产维护联合优化方法, 包括: 通过马尔可 夫链表示串行生产系统的系统状态, 构建包括状 态空间、 动作空间、 转移矩阵和成本函数的马尔 科夫模型; 采用贪心策略求解马尔科夫模型, 从 动作空间中选取维护策略, 构建回放记忆数据 集; 采用回放记忆数据集对预先建立的神经网络 进行迭代训练, 直至达到预设的迭代终止条件; 采用训练后的神经网络, 获取实际串行生产系统 的生产维护策略。 与现有技术相比, 本发明构造 马尔可夫决策过程数学模型, 可反映生产系统的 动态变化, 结合神经网络框架和经验回放技术, 优化了算法的收敛速度和求解能力, 可适用于复 杂度高的串行生产系统的动态决策求 解需求。 权利要求书2页 说明书6页 附图1页 CN 113112051 B 2022.10.25 CN 113112051 B 1.一种基于增强学习的串行生产系统生产维护联合优化方法, 其特征在于, 包括以下 步骤: 通过马尔科夫链表示串行生产系统的系统状态, 确定串行生产系统 的状态转移概率的 计算方法, 构建包括状态空间、 动作空间、 转移 矩阵和成本函数的马尔科 夫模型; 采用贪心策略求解所述马尔科夫模型, 从所述动作空间中选取维护策略, 构建回放记 忆数据集; 采用所述回放记忆数据集对预先建立的神经网络进行迭代训练, 直至达到预设 的迭代终止条件; 采用训练后的所述神经网络, 获取实际串行生产系统的生产维护策略; 所述系统状态的表达式为: s(t)=[α1(t),..., αM+1(t),b1(t),...,bM(t)] bm(t)=bm(t‑1)+THm(t)‑THm+1(t) 式中, s(t)为系统状态, t为时间, THm(t)为在时间t机器Mm的产量, Mm为生产系统的第m 台机器, αM+1(t)为机器Mm的运行状态变量, 1表示在在时间t机器m处于加工工件状态, 反之 为0, bM(t)为在时间t缓冲区Bm的容量; 所述串行生产系统的系统状态的转移概 率的计算过程包括: 计算所述串行生产系统中各机器的状态转移概率, 从而计算所述系统状态的转移概 率, 所述串行生产系统中各机器的状态转移概 率的计算表达式为: 式中, 为时间t的机器状态序列, 为各台机器在t时刻的维护决 策cm(t)的序列, pm为第m台机器的转移概 率; 所述系统状态的转移概 率的计算表达式为: 式中, s(t)为系统在t时刻的状态; 所述马尔科 夫模型的求 解目标是找到最优维护策略π*, 最小化长期 期望成本, 即 当选择策略π 时, 带折扣因子的期望成本的表达式为: 式中, 为每个时间单位的决策成本, s为系统状态, Eπ为选择策略π时, 带折扣 因子的期望成本, γt(0<γt<1)为表示 折扣因子; 所述马尔科 夫模型的目标函数的表达式为: 式中, s′为下一个时刻的机器 状态, V(s ′)为下一个 状态s′的值函数。 2.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法, 其特征在于, 所述THm(t)的计算表达式为:权 利 要 求 书 1/2 页 2 CN 113112051 B 2式中, vm( αM(t))为机器Mm在状态αM(t)下的速度。 3.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法, 其特征在于, 所述决策成本的计算表达式为: 式中, gb为单位库存成本, g‑为单位缺货成本, x‑(t)=vM+1( αM+1(t))‑THM+1, gm(t)表示维 护成本, 即 4.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法, 其特征在于, 所述回放记 忆数据集的构建过程包括: 有ε 的概率从动作空间随机选取 有1‑ε 的概率根据第一算 式选取 所述第一算 式的表达式为: 构建经验 存进回放记忆数据集Dt=(e1,....,et)中, 为 系统在状态s+1时的最优价 值函数, 为神经网络中函数逼近 权重。 5.根据权利要求1所述的一种基于增强学习的串行生产系统生产维护联合优化方法, 其特征在于, 采用随机梯度下降法对所述神经网络的迭代训练, 缩小均方误差, 所述均方误 差的计算表达式为: 式中, 表示上一轮迭代的实值权 重; 所述实值权 重的更新表达式为: 式中, α =1/n, n 为当前迭代次数。 6.根据权利要求5所述的一种基于增强学习的串行生产系统生产维护联合优化方法, 其特征在于, 所述迭代终止条件为若两组连续实值参数 之差的范数小于预设的阈值, 则 停止。权 利 要 求 书 2/2 页 3 CN 113112051 B 3

.PDF文档 专利 一种基于增强学习的串行生产系统生产维护联合优化方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于增强学习的串行生产系统生产维护联合优化方法 第 1 页 专利 一种基于增强学习的串行生产系统生产维护联合优化方法 第 2 页 专利 一种基于增强学习的串行生产系统生产维护联合优化方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:19:58上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。