专利基于多智能体深度强化学习的虚拟综采生产系统推演方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111577141.6 (22)申请日 2021.12.2 2 (71)申请人太原理工大学地址 030024 山西省太原市迎泽西大街79 号 (72)发明人王学文　李素华　谢嘉成　刘曙光　焦秀波　蔡宁　王振威　董梦瑶　郝梓翔　葛福祥　孟浩　 (74)专利代理机构太原倍智知识产权代理事务所(普通合伙) 14111 代理人张宏 (51)Int.Cl. G06F 30/20(2020.01) G06F 119/02(2020.01) (54)发明名称基于多智能体深度强化学习的虚拟综采生产系统推演方法 (57)摘要本发明涉及一种基于多智能体深度强化学习的虚拟综采生产系统推演方法，根据综采工作面“三机”各自的结构参数与自由度特点进行煤机装备智能体本体的三维建模，以及根据煤层探测信息与采煤机截割信息进行虚拟煤层的建模；将建立的模型导入至Unity3D中，作为整个综采工作面“三机”的初始场景，将装备开采过程中的历史运行信息接入场景中，提取煤机装备运行关键信息作为初始运行的数据驱动来源；将装备运行数据进行集中迭代训练，采用分布式控制方式获得装备运行的决策信息，最终在决策结果的控制下实现综采工作面 “三机”协同推进以及与工作空间的动态耦合，为综采工作面生产系统高效运行提供技术平台支撑。权利要求书3页说明书11页附图6页 CN 114329936 A 2022.04.12 CN 114329936 A 1.一种基于多智能体深度强化学习的虚拟综采生产系统推演方法，其特征在于：根据综采工作面 “三机”各自的结构参数与自由度特点进行煤机装备智能体本体的三维建模，以及根据煤层探测信息与采煤机截割信息进行虚拟煤层的建模；将建立的模型导入至Unity3D中，作为整个综采工作面 “三机”的初始场景，将装备开采过程中的历史运行信息接入场景中，提取煤机装备运行关键信息作为初始运行的数据驱动来源；将装备运行数据进行集中迭代训练，采用分布式控制方式获得装备运行的决策信息，最终在决策结果的控制下实现采煤机智能体的调速、滚筒调高、推进，刮板输送机智能体自适应弯曲与推演下一循环开采轨迹，液压支架智能体的推溜、移架、升/降柱、伸/收互帮板以及智能体间的纠架，根据采煤机的截割信息进行煤层的更新；以上所述的 “三机”为液压支架、刮板输送机和采煤机，所建立的煤机装备智能体为采煤机智能体、液压支架智能体群、刮板输送机智能体。 2.根据权利要求1所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法，其特征在于：在虚拟环境下，对煤机装备智能体的运动进行决策，实现综采工作面 “三机”协同推进过程，包括以下步骤： (1)利用Unity3D的Ml ‑Agents插件构建运行环境，确定各智能体关于自身的信息以及关于其他智能体的信息，即自身的关节信息、在虚拟煤层上的方位信息、自身的关键运行动作信息，与其他智能体间的相对方位信息及其他智能体的自身的位置信息、关键运行动作信息； (2)煤机装备智能体根据当前的煤层环境以及装备间的相对状态信息进行选择并执行各自的动作，进而影响环境状态的转移与更新，该过程通过<S,A1,…,An,T,R1,…,Rn>分别表示状态集合(S)，动作集合(Ai)，奖励集合(Ri)，状态转移的概率(T)； (3)利用Unity3D中机器学习的 “好奇心选项 ”，建立单个智能体的累积奖励机制如下: 将st， at， st+1，输出为通过输入的st， at预测下一个状态与st+1的差距，差距越大， at对未知状态的好奇心越大，奖励越大；通过训练一个过滤器，将一些与煤机装备智能体行为无关的特性进行过滤，将过滤后的行为状态输入另外一个网络中，得到 (4)将整个开采过程的期望效果，即保证安全开采的前提下，实现最大开采率这一期望记为Q(s,a)，并将其分解为局部Qi(si,ai)的加权和，煤机装备智能体均有各自的局部值函数，将综采工作面 “三机”的开采目标分解为单个煤机装备的运行目标； (5)对单个煤机装备的运行决策过程进行整合，确定综采工作面 “三机”运行的最大期望值，采用混合网络模块QMIX方法对单个煤机装备智能体的决策过程进行合并，最大化全局Qtot值对应的运行动作是各局部Qa值的组合；权　利　要　求　书 1/3 页 2 CN 114329936 A 2(6)建立综采工作面 “三机”多智能体在虚拟煤层上运行的全局Q值与单个设备的局部Q 值的单调性约束关系，采用集中式的学习方法在考虑多智能体间的联合动作效应的前提下，去解决复杂煤层条件下开采过程中的不确定问题，从中提取单个煤机装备智能体的运行策略，进而实现分布式控制，约束关系如以下公式所示，其中n 为装备智能体的个数： (7)在训练的过程中，加入综采工作面开采过程的开采量、开采时间、留岩量以及综采工作面的平直度这些全局信息进行辅助训练，通过联合动作Q值指导策略的优化，同时个体能够从全局的Q值中提取局部的Qi值来完成各自的决策，实现多智能体的分布式控制；选择最大化全局Qtot值为迭代更新的目标，在每次迭代中选择各个智能体的动作； (8)得到最优Qtot以及最优策略，建立了综采工作面 “三机”的耦合推进运行机制，各煤机装备智能体按照各自的最优运行策略并结合整体的运行策略的指导实现综采工作面 “三机”的耦合推演。 3.根据权利要求2所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法，其特征在于：步骤(6)中，所述联合动作效应是指各煤机装备智能体间在达到最优联合动作问题中，各智能体间的运动相互建模，并能从其他智能体间获得潜在的运动信息进行决策，为装备智能体协作机制的建立基础。 4.根据权利要求3所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法，其特征在于：装备智能体协作机制是指采煤机智能体分别与煤层间、刮板输送机智能体间，液压支架智能体与煤层间、刮板输送机智能体，刮板输送机智能体与虚拟煤层间、采煤机智能体、液压支架智能体群间的协同作业机制。 5.根据权利要求4所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法，其特征在于：所述的装备智能体协作机制是在 Unity3D创建的虚拟环境下，基于虚拟煤层开采空间，刮板输送机智能体自适应铺设在虚拟煤层底板上，采煤机智能体以刮板输送机智能体为轨道，前后滚筒自适应调高进行割煤，液压支架智能体根据煤层顶底板的截割情况，及时推进与支护。 6.根据权利要求3所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法，其特征在于：相互建模是指煤机装备智能体中的其中一个在联合动作学习过程中，基于其他智能体的历史运行信息，对其他智能体的运行策略进行建模。 7.根据权利要求6所述的基于多智能体深度强化学习的虚拟综采生产系统推演方法，其特征在于：所述相互建模是指采煤机智能体根据煤层环境信息与刮板输送机智能体的姿态信息进行割煤动作；刮板输送机智能体根据采煤机智能体的截割过程信息进行与煤层环权　利　要　求　书 2/3 页 3 CN 114329936 A 3

专利 基于多智能体深度强化学习的虚拟综采生产系统推演方法

专利基于多智能体深度强化学习的虚拟综采生产系统推演方法