专利一种集群机器人躲避抓捕的强化学习方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210932874.5 (22)申请日 2022.08.04 (71)申请人北京师范大学地址 100875 北京市海淀区新街口外大街 19号 (72)发明人斯白露　 (74)专利代理机构北京华清迪源知识产权代理有限公司 1 1577 专利代理师丁彦峰 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称一种集群机器人躲避抓捕的强化学习方法及系统 (57)摘要本申请公开了一种集群机器人躲避抓捕的强化学习方法及系统。首先对集群中的个体进行初始化；通过贪婪策略确定目标集群中各个个体的当前时刻动作数据；建立动力学模型进行学习；具体通过低维度的输入学习周围个体数量的任务，通过扩充观察的维度，以学会聚集、防碰撞任务，进一步扩充观察维度，以学会躲避抓捕的任务。不断获取环境信息并执行动作，利用奖赏函数来更新策略网络，最终完成特定任务的学习。本发明借鉴了生物集群的运动模式以及学习方式，具有高度的仿生性。同时，该框架的学习不依赖于任何先验的行为规则以约束机器人的行为，而是让所有个体从最初始的随机状态开始学习，降低了人工依赖性，具有良好的鲁棒性与可扩展性。权利要求书3页说明书7页附图3页 CN 115238870 A 2022.10.25 CN 115238870 A 1.一种集群机器人躲避抓捕的强化学习方法，其特征在于，所述方法包括： S1，获取目标集群，并对目标集群中的各个个体进行初始化；所述目标集群包括多个被捕机器人和一个捕猎机器人； S2，通过贪婪策略确定所述目标集群中各个个体的当前时刻动作数据；其中，所述动作包括个体的线加速度与转向角度； S3，建立所述被捕机器人与所述捕猎机器人的动力学模型；所述动力学模型包括三个子网络结构，其中第一子网络结构用于获取当前个体周围个体数量结果，第二子网络结构用于获取聚集及防碰撞结构，第三子网络结构用于获取躲避抓捕的相对位置结果； S4，遍历所述目标集群中的所有个体作为当前个体对所述第一子网络结构进行训练，具体使用q ‑learning对每个个体的策略网络进行更新； S5，确定所述当前个体的周围个体的网络数据，并将所述周围个体的网络数据与当前个体进行匹配进行合作学习； S6，更新所述贪婪策略中的概率参数，并开始执行进行下一周期的训练，直至达到预设的训练周期； S7，当达到预设的训练周期第一子网络收敛后，通过步骤S2到S5依次对第二子网络结构和第三子网络结构进行训练得到目标动力学模型，所述目标动力学模型用于得到集群机器人躲避抓捕结果。 2.根据权利要求1所述的方法，其特征在于，所述第一子网络结构和所述第二子网络结构具体包括 4层神经网络，中间层均为32个神经元，激活函数为ReLU。 3.根据权利要求1所述的方法，其特征在于，所述第三子网络结构具体包括三个中间层结构，其中，第一中间层包含两部分，各16个神经元，第二中间层和第三中间层均含有32个神经元。 4.根据权利要求1所述的方法，其特征在于，对第一子网络结构进行训练具体包括：输入当前个体自身速度方向与周围个体差异，通过公式得到当前个体的周围个体数量，其中，表示当前个体周围个体数量结果，中R为当前个体感知半径，为当前个体感知范围内周围个体数量，为当前个体速度，为当前个体位置， t为当前时刻，并通过得到奖赏值。 5.根据权利要求1所述的方法，其特征在于，对第二子网络结构进行训练具体包括：在基础上增加八维输入将感知范围切割为八个方向，若该方向上有个体达到警戒距离，则与之对应的值为1，否则为0；并通过奖赏函数权　利　要　求　书 1/3 页 2 CN 115238870 A 2得到训练的奖赏值，其中， cg,cc为常数， dcollision为警戒距离， R为当前个体感知半径，为当前个体感知范围内周围个体数量，为当前个体位置， t为当前时刻。 6.根据权利要求1所述的方法，其特征在于，对第三子网络结构进行训练具体包括：通过确定捕猎机器人和当前个体的速度方向差异；通过确定捕猎机器人和当前个体的位置角度差异，其中通过确定捕猎机器人的距离；并将捕猎机器人和当前个体的速度方向差异、位置角度差异和捕猎机器人的距离作为三维输入通过得到奖赏值，其中， c0,c1,c2为常数， R为当前个体感知半径，为当前个体感知范围内周围个体数量，为当前个体位置，为捕猎机器人位置， t为当前时刻。 7.根据权利要求1所述的方法，其特征在于，更新所述贪婪策略中的概率参数，具体根据公式： εt+1←max(0.01, εt‑εd) 确定进行更新概率参数，其中， εd为1e‑6。 8.根据权利要求1所述的方法，其特征在于，所述使用q ‑learning对每个个体的策略网络进行更新，具体根据公式：得到更新后的策略网络，其中， α为学习率， γ为折扣系数，序列(s,a,r,s ′,a′)分别为强化学习中的状态、动作、奖赏、下一个时刻的状态、下一个时刻的动作。 9.一种集群机器人躲避抓捕的强化学习方法系统，其特征在于，所述系统包括：获取模块，用于获取目标集群，并对目标集群中的各个个体进行初始化；所述目标集群包括多个被捕机器人和一个捕猎机器人；确定模块，用于通过贪婪策略确定所述目标集群中各个个体的当前时刻动作数据；其中，所述动作包括个体的线加速度与转向角度；建立模块，用于建立所述被捕机器人与所述捕猎机器人的动力学模型；所述动力学模权　利　要　求　书 2/3 页 3 CN 115238870 A 3

专利 一种集群机器人躲避抓捕的强化学习方法及系统

专利一种集群机器人躲避抓捕的强化学习方法及系统