(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111577141.6
(22)申请日 2021.12.2 2
(71)申请人 太原理工大 学
地址 030024 山西省太原市迎泽西大街79
号
(72)发明人 王学文 李素华 谢嘉成 刘曙光
焦秀波 蔡宁 王振威 董梦瑶
郝梓翔 葛福祥 孟浩
(74)专利代理 机构 太原倍智知识产权代理事务
所(普通合伙) 14111
代理人 张宏
(51)Int.Cl.
G06F 30/20(2020.01)
G06F 119/02(2020.01)
(54)发明名称
基于多智能体深度强化学习的虚拟综采生
产系统推演方法
(57)摘要
本发明涉及一种基于多智能体深度强化学
习的虚拟综采生产系统推演方法, 根据综采工作
面“三机”各自的结构参数与 自由度特点进行煤
机装备智能体本体的三维建模, 以及根据煤层探
测信息与采煤机截割信息进行虚拟 煤层的建模;
将建立的模型导入至Unity3D中, 作为整个综采
工作面“三机”的初始场景, 将装备开采 过程中的
历史运行信息接入场景中, 提取煤机装备运行关
键信息作为初始运行的数据驱动来源; 将装备运
行数据进行集中迭代训练, 采用分布式控制方式
获得装备运行的决策信息, 最终在决策结果的控
制下实现综采工作面 “三机”协同推进以及与工
作空间的动态耦合, 为综采工作面生产系统高效
运行提供技 术平台支撑 。
权利要求书3页 说明书11页 附图6页
CN 114329936 A
2022.04.12
CN 114329936 A
1.一种基于多智能体深度强化学习的虚拟综采生产系统推演方法, 其特 征在于:
根据综采工作面 “三机”各自的结构参数与自由度特点进行煤机装备智能体本体的三
维建模, 以及根据煤层探测信息与采煤机截割信息进行虚拟煤层的建模; 将建立的模型导
入至Unity3D中, 作为整个综采工作面 “三机”的初始场景, 将装 备开采过程中的历史运行信
息接入场景中, 提取煤 机装备运行关键信息作为初始运行的数据驱动来源;
将装备运行数据进行集中迭代训练, 采用分布式控制方式获得装备运行的决策信息,
最终在决策结果的控制下实现采煤机智能体的调速、 滚筒调高、 推进, 刮板输送机智能体自
适应弯曲与推演下一循环开采轨迹, 液压支架智能体的推溜、 移架、 升/降柱、 伸/收互帮板
以及智能体间的纠架, 根据采煤 机的截割信息进行煤层的更新;
以上所述的 “三机”为液压支架、 刮板输送机和采煤机, 所建立的煤机装备智能体为采
煤机智能体、 液压支 架智能体 群、 刮板输送机智能体。
2.根据权利要求1所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法,
其特征在于: 在虚拟环 境下, 对煤机装 备智能体的运动进 行决策, 实现综采工作面 “三机”协
同推进过程, 包括以下步骤:
(1)利用Unity3D的Ml ‑Agents插件构建运行环境, 确定各智能体关于自身的信息以及
关于其他智能体的信息, 即自身的关节信息、 在虚拟煤层上的方位信息、 自身的关键运行动
作信息, 与其他智能体间的相对方位信息及其他智能体的自身的位置信息、 关键运行动作
信息;
(2)煤机装备智能体根据当前的煤层环境以及装备间的相对状态信 息进行选择并执行
各自的动作, 进而影响环境状态的转移与更新, 该过程通过<S,A1,…,An,T,R1,…,Rn>分别
表示状态集 合(S), 动作集 合(Ai), 奖励集 合(Ri), 状态转移的概 率(T);
(3)利用Unity3D中机器学习的 “好奇心选项 ”, 建立单个智能体的累积奖励机制如下:
将st, at, st+1, 输出为
通过输入的st, at预测下一个状态
与st+1的差距, 差距越大, at对
未知状态的好奇心越 大, 奖励越大; 通过训练一个过滤器, 将一些与煤机装备智能体行为无
关的特性进行 过滤, 将过滤后的行为状态输入另外一个网络中, 得到
(4)将整个开采过程的期望效果, 即保证安全开采的前提下, 实现最大开采率这一期望
记为Q(s,a), 并将其分解为局部Qi(si,ai)的加权和, 煤机装 备智能体均有各自的局部值函
数, 将综采工作面 “三机”的开采目标分解 为单个煤 机装备的运行目标;
(5)对单个煤机装备的运行决策过程进行整合, 确定综采工作面 “三机”运行的最大期
望值, 采用混合网络模块QMIX方法对单个煤机装备智能体的决策过程进行合并, 最大化全
局Qtot值对应的运行动作是 各局部Qa值的组合;权 利 要 求 书 1/3 页
2
CN 114329936 A
2(6)建立综采工作面 “三机”多智能体在虚拟煤层上运行的全局Q值与单个设备的局部Q
值的单调性约束关系, 采用集中式的学习方法在考虑多智能体间的联合动作效应的前提
下, 去解决复杂煤层条件下开采过程中的不确定 问题, 从中提取单个煤机装备智能体的运
行策略, 进而实现分布式控制, 约束关系如以下公式所示, 其中n 为装备智能体的个数:
(7)在训练的过程中, 加入综采工作面开采过程的开采量、 开采时间、 留岩量以及综采
工作面的平直度这些全局信息进 行辅助训练, 通过联合动作Q值指导策略的优化, 同时个体
能够从全局的Q值中提取局部的Qi值来完成各自的决策, 实现多智能体的分布式控制; 选择
最大化全局Qtot值 为迭代更新的目标, 在每次迭代中选择 各个智能体的动作;
(8)得到最优Qtot以及最优策略, 建立了综采工作面 “三机”的耦合推进运行机制, 各煤
机装备智能体按照各自的最优运行策略并结合整体的运行策略的指导实现综采工作面 “三
机”的耦合推演。
3.根据权利要求2所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法,
其特征在于: 步骤(6)中, 所述联合动作效应是指各煤机装 备智能体间在达到最优联合动作
问题中, 各智能体间的运动相互建模, 并能从其他智能体间获得潜在的运动信息进 行决策,
为装备智能体协作机制的建立基础。
4.根据权利要求3所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法,
其特征在于: 装备智能体协作机制是指采煤机智能体 分别与煤层间、 刮板输送机智能体间,
液压支架智能体与煤层间、 刮板输送机智能体, 刮板输送机智能体与 虚拟煤层间、 采煤机智
能体、 液压支 架智能体 群间的协同作业机制。
5.根据权利要求4所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法,
其特征在于: 所述的装 备智能体协作机制是在 Unity3D创建的虚拟环境下, 基于虚拟 煤层开
采空间, 刮板输送机智能体 自适应铺设在虚拟煤层底板上, 采煤机智能体以刮板输送机智
能体为轨道, 前后滚筒自适应调高进 行割煤, 液压支架智能体根据煤层顶底板的截割情况,
及时推进与支护。
6.根据权利要求3所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法,
其特征在于: 相互建模是指煤机装备智能体中的其中一个在联合动作学习 过程中, 基于其
他智能体的历史运行信息, 对其 他智能体的运行 策略进行建模。
7.根据权利要求6所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法,
其特征在于: 所述相互建模是指采煤机智能体根据煤层环境信息与刮板输送机智能体的姿
态信息进 行割煤动作; 刮板输送机智能体根据采煤机智能体的截割过程信息进行与煤层环权 利 要 求 书 2/3 页
3
CN 114329936 A
3
专利 基于多智能体深度强化学习的虚拟综采生产系统推演方法
文档预览
中文文档
21 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:53:36上传分享