专利 一种目标跟踪强化学习框架

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211059783.1 (22)申请日 2022.08.31 (71)申请人中国人民解放军海军航空大学地址 264001 山东省烟台市芝罘区二马路 188号 (72)发明人崔亚奇　何友　 (74)专利代理机构烟台上禾知识产权代理事务所(普通合伙) 37234 专利代理师赵加鑫 (51)Int.Cl. G01S 13/66(2006.01) G01S 17/66(2006.01) G06N 20/00(2019.01) (54)发明名称一种目标跟踪强化学习框架 (57)摘要本发明实施例提供了一种目标跟踪强化学习框架，方法包括：目标跟踪强化学习框架中跟踪器、智能体、可执行动作空间、动作、状态、奖励以及环境的定义与设置；智能体与环境的交互方式，智能体控制策略的优化方式和智能体的运用方式；智能体优化后，智能体与环境交互，环境输出的跟踪器运动状态信息，作为目标跟踪强化学习方法的输出，各个时刻输出的跟踪器运动状态信息为强化学习方法所跟踪得到的目标航迹。本发明实施例提供了一种基于强化学习的目标跟踪框架，给出的智能体可基于模拟环境或者实际环境进行自我学习，具有适用范围广、适配场景多、人力物力消耗少等优点。权利要求书2页说明书6页附图1页 CN 115291204 A 2022.11.04 CN 115291204 A 1.一种目标跟踪强化学习框架，其特征在于，包括以下步骤：步骤1：目标跟踪强化学习框架中的跟踪器定义为具有所跟踪目标运动特性，受智能体控制和目标运动特性约束，在探测环境中运动的单元；步骤2：目标跟踪强化学习框架中的智能体定义为跟踪器运动决策者，依据控制策略，控制跟踪器运动，其输入为环境提供的状态和奖励，输出为跟踪器应执行的动作，反馈给环境；步骤3：目标跟踪强化学习框架中的可执行动作空间由跟踪器运动可控制参数变化空间构建，具体的动作从可执行动作空间中进行选取；步骤4：目标跟踪强化学习框架中的状态为跟踪器当前时刻运动状态信息和探测设备获取的下一时刻量测信息，它们在统一惯性坐标系进行表示，其中探测设备输出的量测信息可由多个量测点构成，每个量测点至少包含观测时间和空间位置信息，跟踪器运动状态信息至少包含时间、空间位置、运动速度和运动方向信息；步骤5：目标跟踪强化学习框架中的奖励由同一时刻跟踪器运动状态信息与探测设备量测信息间距离的远近度量，两者越远，奖励越小，两者越近，奖励越大；步骤6：目标跟踪强化学习框架中的环境由探测设备、探测环境和跟踪器共同构建，其输入为动作，输出为状态和奖励；步骤7：目标跟踪强化学习框架中智能体与环境可以连续交互，一个完整的交互过程从环境初始状态开始，到环境终止状态结束，包括多步交互，在每步交互中，智能体接收环境输出的状态和奖励，依据控制策略，输出当前动作决策，环境接收智能体输出的当前动作，输出状态和奖励；步骤8：目标跟踪强化学习框架中智能体的优化方式为以最大化累积奖励为目标，采用合适的策略学习方法，通过智能体与环境交互，对智能体控制策略，进行不断优化学习，以得到满足要求的目标跟踪智能体；步骤9：目标跟踪强化学习框架中智能体的运用方式为利用优化得到的目标跟踪智能体，进行智能体与环境的交互，每步交互，环境输出的跟踪器运动状态信息，作为目标跟踪强化学习方法的输出，各个时刻输出的跟踪器运动状态信息为强化学习方法所跟踪得到的目标航迹。 2.如权利要求1所述的一种目标跟踪强化学习框架，其特征在于，在步骤5的奖励采用如下方法计算：首先依次计算跟踪器空间位置与探测设备各个量测点的距离，然后据此计算跟踪器在各个量测点处的奖励r，如果跟踪器空间位置与探测设备第i个量测点的距离大于无奖励门限 gr，则其奖励 ri设置为 0 ，如果小于无奖励门限，则奖励设置为最后，对各个量测点处的奖励进行求和，得到当前时刻的总奖励R＝∑ri，其中(x0,y0)为当前时刻跟踪器空间位置， (xi,yi)为量测点i的空间位置，可设置为探测设备量测点i的量测协方差，也可人工设置， gr可设置为也可人工进行设置。权　利　要　求　书 1/2 页 2 CN 115291204 A 23.如权利要求1所述的一种目标跟踪强化学习框架，其特征在于，在步骤8采用的策略学习方法为：可直接采用深度确定性策略梯度方法(Deep Deterministic Policy Gradient,DDPG) 进行智能体策略学习，也可通过对可执行动作空间进行离散处理，采用深度Q学习网络 (Deep Q‑Network,DQN)进行智能体策略学习。权　利　要　求　书 2/2 页 3 CN 115291204 A 3

专利 一种目标跟踪强化学习框架

专利一种目标跟踪强化学习框架