说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211059783.1 (22)申请日 2022.08.31 (71)申请人 中国人民解 放军海军航空大 学 地址 264001 山东省烟台市芝罘区二马路 188号 (72)发明人 崔亚奇 何友  (74)专利代理 机构 烟台上禾知识产权代理事务 所(普通合伙) 37234 专利代理师 赵加鑫 (51)Int.Cl. G01S 13/66(2006.01) G01S 17/66(2006.01) G06N 20/00(2019.01) (54)发明名称 一种目标跟踪强化学习框架 (57)摘要 本发明实施例提供了一种目标跟踪强化学 习框架, 方法包括: 目标跟踪强化学习框架中跟 踪器、 智能体、 可执行动作空间、 动作、 状态、 奖励 以及环境的定义与设置; 智能体与环 境的交互方 式, 智能体控制策略的优化方式和 智能体的运用 方式; 智能体优化后, 智能体与环境交互, 环境输 出的跟踪器运动状态信息, 作为目标跟踪强化学 习方法的输出, 各个时刻输出的跟踪器运动状态 信息为强化学习方法所跟踪 得到的目标航迹。 本 发明实施例提供了一种基于强化学习的目标跟 踪框架, 给出的智能体可基于模拟环 境或者实际 环境进行自我学习, 具有适用范围广、 适配场景 多、 人力物力消耗少等优点。 权利要求书2页 说明书6页 附图1页 CN 115291204 A 2022.11.04 CN 115291204 A 1.一种目标跟踪强化学习框架, 其特 征在于, 包括以下步骤: 步骤1: 目标跟踪强化学习框架中的跟踪器定义为具有所跟踪目标运动特性, 受智能体 控制和目标运动特性约束, 在探测环境中运动的单 元; 步骤2: 目标跟踪强化学习框架中的智能体定义为跟踪器运动决策者, 依据控制策略, 控制跟踪器运动, 其输入为环境提供的状态和奖励, 输出为跟踪器应执行的动作, 反馈给环 境; 步骤3: 目标跟踪强化学习框架中的可执行动作空间由跟踪器运动可控制参数变化空 间构建, 具体的动作从可 执行动作空间中进行选取; 步骤4: 目标跟踪强化学习框架中的状态为跟踪器当前时刻运动状态信息和探测设备 获取的下一时刻量测信息, 它们在统一惯性坐标系进行表示, 其中探测设备输出 的量测信 息可由多个量测点构成, 每个量测 点至少包含观测时间和空间位置信息, 跟踪器运动状态 信息至少包含时间、 空间位置、 运动速度和运动方向信息; 步骤5: 目标跟踪强化学习框架中的奖励由同一时刻跟踪器运动状态信息与探测设备 量测信息间距离的远近度量, 两者越远, 奖励越小, 两者越近, 奖励越大; 步骤6: 目标跟踪强化学习框架中的环境由探测设备、 探测环境和跟踪器共 同构建, 其 输入为动作, 输出为状态和奖励; 步骤7: 目标跟踪强化学习框架中智能体与环境可以连续交互, 一个完整的交互过程从 环境初始状态开始, 到环境终止状态结束, 包括多步交互, 在每步交互中, 智能体接 收环境 输出的状态和奖励, 依据控制策略, 输出当前动作决策, 环境接收智能体输出 的当前动作, 输出状态和奖励; 步骤8: 目标跟踪强化学习框架中智能体的优化方式为以最大化累积奖励为目标, 采用 合适的策略学习 方法, 通过智能体与环境交互, 对智能体控制策略, 进行不断优化学习, 以 得到满足要求的目标跟踪智能体; 步骤9: 目标跟踪强化学习框架中智能体的运用方式为利用优化得到的目标跟踪智能 体, 进行智能体与环境的交互, 每步交互, 环境输出的跟踪器运动状态信息, 作为 目标跟踪 强化学习方法的输出, 各个时刻输出的跟踪器运动状态信息为强化学习方法所跟踪得到的 目标航迹 。 2.如权利要求1所述的一种目标跟踪强化学习框架, 其特征在于, 在步骤5的奖励采用 如下方法计算: 首先依次计算跟踪器空间位置与探测设备各个量测点的距离, 然后据此计算跟踪器在 各个量测点处的奖励r, 如果跟踪器空间位置与探测设备第i个量测点的距离大于无奖励门 限 gr,则 其 奖 励 ri设 置 为 0 ,如 果 小 于 无 奖 励 门 限 ,则 奖 励 设 置 为 最后, 对各个量测点处的奖励进行求和, 得到当 前时刻的总奖励R=∑ri, 其中(x0,y0)为当前时刻跟踪器空间位置, (xi,yi)为量测点i的空 间位置, 可设置为探测设备量测点i的量测协方差, 也可人工设置, gr可设置为 也可人工进行设置 。权 利 要 求 书 1/2 页 2 CN 115291204 A 23.如权利要求1所述的一种目标跟踪强化学习框架, 其特征在于, 在步骤8采用的策略 学习方法为: 可直接采用深度确定性策略梯度方法(Deep  Deterministic  Policy Gradient,DDPG) 进行智能体策略学习, 也可通过对可执行动作空间进行离散处理, 采用深度Q学习网络 (Deep Q‑Network,DQN)进行智能体策略学习。权 利 要 求 书 2/2 页 3 CN 115291204 A 3

.PDF文档 专利 一种目标跟踪强化学习框架

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种目标跟踪强化学习框架 第 1 页 专利 一种目标跟踪强化学习框架 第 2 页 专利 一种目标跟踪强化学习框架 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:03:06上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。