专利一种基于动作约束的离线多智能体强化学习方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111683837.7 (22)申请日 2021.12.2 9 (71)申请人北京工业大学地址 100124 北京市朝阳区平乐园10 0号 (72)发明人韩雨　高若云　王逸飞　袁帅　任柯燕　 (74)专利代理机构北京思海天达知识产权代理有限公司 1 1203 代理人刘萍 (51)Int.Cl. G06N 20/00(2019.01) B60W 60/00(2020.01) (54)发明名称一种基于动作约束的离线多智能体强化学习方法 (57)摘要本发明公开一种基于动作约束的离线多智能体强化学习方法。根据QMIX网络，实现基于动作约束的多智能体离线强化学习方法的训练；该方法依据在离线强化学习中将动作约束在离线数据集中可以有效减少外推误差这一特点，通过变分自编码器进行动作约束，并进一步结合中心训练分布式执行的方法。进而达到各智能体在训练中仅依靠所拥有的离线数据去训练智能体，从而达到不需要与环境进行进一步交互和探索的目的。进而提升网络训练效果，降低多智能体算法在离线训练下的难度。权利要求书2页说明书5页附图1页 CN 114386620 A 2022.04.22 CN 114386620 A 1.一种基于动作约束的离线多智能体强化学习方法，其特征在于，包括以下步骤：步骤(1)使用QMIX网络收集离线多智能体缓存数据集；步骤(2)基于数据集训练变分自编码器；在数据集上，使用变分自编码器训练生成模型 Gω，学习每一个智能体局部观测状态及其执行动作的数据分布，其中ω为生成模型的参数，训练后的模型参数不再更新，即固定 ω；步骤(3)使用训练好的生成模型，对动作进行采样；步骤(4)利用高斯扰动模型对步骤(3)中得到的动作采样进行干扰，增加约束动作的多样性；步骤(5)使用步骤(4)中约束过的动作，根据局部观测和相应的动作，利用所述估值网络计算出每一个智能体相应的价值；步骤(6)将当前时刻的全局状态观测通过超网络与所有智能体的价值，输入到所述的混合网络进行混合，得到全部智能体的总价值；步骤(7)通过最小化网络损失函数，训练整个网络，更新网络各部分权重及偏置参数，网络迭代300M次以上，选取损失最小的一组权重及偏置参数，作为训练完毕的离线多智能体强化学习模型；将训练好的离线多智能体强化学习模型应用在环境之中，即可根据当前环境下的各智能体局部观测，执行各个智能体的最高价值策略，做出各智能体的最优动作。 2.如权利要求1所述的基于动作约束的离线多智能体强化学习方法，其特征在于，步骤 (3)(4)对应的动作约束方法，具体为：根据数据集B对环境中的j个智能体，进行n组的随机采样，并记录下每一组采样下的每一个智能体的局部观测状态，即其中表示第i组采样中第j个智能体的局部观测；使用训练好的生成模型Gω，依据各智能体局部观测生成对应的动作采样，即其中第i组采样中第j个智能体的动作采样；使用高斯扰动模型，对采样出的动作依次进行干扰，设高斯扰动模型为ξ；其中ξ服从均值为Φ标准差为1的高斯分布；其中Φ为动作a的取值范围的均值，即 amax为动作空间的最大合法取值， amin为动作空间的最小合法取值；每一组经过扰动后的动作输出为 3.如权利要求1所述的基于动作约束的离线多智能体强化学习方法，其特征在于，步骤 (1)对应的离线多智能体缓存数据集B方法，具体为：从头训练QMIX网络，并且记录下每个智能体，在当前时刻t的局部观测si， t，执行的动作 ai， t，以及执行动作后下一时刻观测si， t+1，以及所有智能体拿到的当前时刻t的全局奖励值 rt； j为智能体总个数，将t时刻的所有j个智能体的数据，作为一个元组(s1， t， a1， t， s1， t+1， s2， t， a2， t， s2， t+1， ...sj， t， aj， t， sj， t+1， rt)存入数据集B之中；经过t次的训练，保存每一时刻的所有j个智能体的动作 ‑观测数据，构成整个数据集B；数据集B形如公式(1)，其中包含0时刻即初始时刻，和t ‑1时刻的全部智能体的动作 ‑观测及奖励数据；权　利　要　求　书 1/2 页 2 CN 114386620 A 2权　利　要　求　书 2/2 页 3 CN 114386620 A 3

专利 一种基于动作约束的离线多智能体强化学习方法

专利一种基于动作约束的离线多智能体强化学习方法