说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210932874.5 (22)申请日 2022.08.04 (71)申请人 北京师范大学 地址 100875 北京市海淀区新 街口外大街 19号 (72)发明人 斯白露  (74)专利代理 机构 北京华清迪源知识产权代理 有限公司 1 1577 专利代理师 丁彦峰 (51)Int.Cl. G06N 3/04(2006.01) G06N 3/08(2006.01) G06N 20/00(2019.01) (54)发明名称 一种集群机器人躲避抓捕的强化学习方法 及系统 (57)摘要 本申请公开了一种集群机器人躲避抓捕的 强化学习方法及系统。 首先对集群中的个体进行 初始化; 通过贪婪策略确定目标集群中各个个体 的当前时刻动作数据; 建立动力学模型进行学 习; 具体通过低维度的输入学习周围个体数量的 任务, 通过扩充观察的维度, 以学会聚集、 防碰撞 任务, 进一步扩充观察维度, 以学会躲避抓捕的 任务。 不断获取环境信息并执行动作, 利用奖赏 函数来更新策略网络, 最终完成特定任务的学 习。 本发明借鉴了生物集群的运动模式以及学习 方式, 具有高度的仿生性。 同时, 该框架的学习不 依赖于任何先验的行为规则以约束机器人的行 为, 而是让所有个体从最初始的随机状态开始学 习, 降低了人工依赖性, 具有良好的鲁棒性与可 扩展性。 权利要求书3页 说明书7页 附图3页 CN 115238870 A 2022.10.25 CN 115238870 A 1.一种集群机器人躲避抓捕的强化学习方法, 其特 征在于, 所述方法包括: S1, 获取目标集群, 并对目标集群 中的各个个体进行初始化; 所述目标集群包括多个被 捕机器人和一个捕 猎机器人; S2, 通过贪婪策略确定所述目标集群 中各个个体的当前时刻动作数据; 其中, 所述动作 包括个体的线加速度与转向角度; S3, 建立所述被捕机器人与所述捕猎机器人的动力学模型; 所述动力学模型包括三个 子网络结构, 其中第一子网络结构用于获取当前个体周围个体数量结果, 第二子网络结构 用于获取聚集及防碰撞结构, 第三子网络结构用于获取躲避抓捕的相对位置结果; S4, 遍历所述目标集群中的所有个体作为当前个体对所述第一子网络结构进行训练, 具体使用q ‑learning对每个个体的策略网络进行 更新; S5, 确定所述当前个体的周围个体的网络数据, 并将所述周围个体的网络数据与当前 个体进行匹配进行合作学习; S6, 更新所述贪婪策略中的概率参数, 并开始执行进行下一周期的训练, 直至达到预设 的训练周期; S7, 当达到预设的训练周期第一子网络收敛后, 通过步骤S2到S5依次对第二子网络结 构和第三子网络结构进行训练得到目标动力学模型, 所述目标动力学模型用于得到集群机 器人躲避抓捕结果。 2.根据权利要求1所述的方法, 其特征在于, 所述第 一子网络结构和所述第 二子网络结 构具体包括 4层神经网络, 中间层均为32个神经 元, 激活函数为ReLU。 3.根据权利要求1所述的方法, 其特征在于, 所述第 三子网络结构具体包括三个中间层 结构, 其中, 第一中间层包含两部分, 各16个神经元, 第二中间层和第三中间层均含有32个 神经元。 4.根据权利要求1所述的方法, 其特 征在于, 对第一子网络结构进行训练具体包括: 输入当前个 体自身速度方向与周围个 体差异, 通过公式 得到当前个体的周围个体数量, 其中, 表示当前个体周围个体数量结果, 中R为当前个体感知半径, 为当前个体感知范围内周围个体数量, 为 当前个体速度, 为当前个 体位置, t为当前时刻, 并通过 得到奖赏 值。 5.根据权利要求1所述的方法, 其特 征在于, 对第二子网络结构进行训练具体包括: 在 基础上增加八维输入 将感知范围切割为八个方向, 若该方向上有 个体达到警戒距离, 则与之对应的 值为1, 否则为0; 并通过奖赏函数权 利 要 求 书 1/3 页 2 CN 115238870 A 2得到训练的奖赏值, 其中, cg,cc为常数, dcollision为警戒距离, R为当前个体感知半径, 为当前个 体感知范围内周围个 体数量, 为当前个 体位置, t为当前时刻。 6.根据权利要求1所述的方法, 其特 征在于, 对第三子网络结构进行训练具体包括: 通过 确定捕猎机器人和当前个体的速度方向 差 异 ; 通 过 确 定 捕 猎 机 器 人 和 当 前 个 体 的 位 置 角 度 差 异 , 其 中 通过 确定捕猎机 器人的距离; 并将捕猎机器人和当前个体的速度方向差异、 位置角度差异和捕猎机器人的距离作为 三维输入通过 得到奖赏值, 其中, c0,c1,c2为常数, R为当前个体感知半径, 为当前个体 感知范围内 周围个体数量, 为当前个 体位置, 为捕猎机器人位置, t为当前时刻。 7.根据权利要求1所述的方法, 其特征在于, 更新所述贪婪策略中的概率参数, 具体根 据公式: εt+1←max(0.01, εt‑εd) 确定进行 更新概率参数, 其中, εd为1e‑6。 8.根据权利要求1所述的方法, 其特征在于, 所述使用q ‑learning对每个个体的策略网 络进行更新, 具体根据公式: 得到更新后的策略网络, 其中, α为学习率, γ为折扣系数, 序列(s,a,r,s ′,a′)分别为 强化学习中的状态、 动作、 奖赏、 下一个时刻的状态、 下一个时刻的动作。 9.一种集群机器人躲避抓捕的强化学习方法系统, 其特 征在于, 所述系统包括: 获取模块, 用于获取目标集群, 并对目标集群 中的各个个体进行初始化; 所述目标集群 包括多个 被捕机器人和一个捕 猎机器人; 确定模块, 用于通过贪婪策略确定所述目标集群中各个个体的当前时刻动作数据; 其 中, 所述动作包括个 体的线加速度与转向角度; 建立模块, 用于建立所述被捕机器人与所述捕猎机器人的动力学模型; 所述动力学模权 利 要 求 书 2/3 页 3 CN 115238870 A 3

.PDF文档 专利 一种集群机器人躲避抓捕的强化学习方法及系统

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种集群机器人躲避抓捕的强化学习方法及系统 第 1 页 专利 一种集群机器人躲避抓捕的强化学习方法及系统 第 2 页 专利 一种集群机器人躲避抓捕的强化学习方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:04:07上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。