专利一种基于Muti-Agent与强化学习的机场融合仿真方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111640102.6 (22)申请日 2021.12.2 9 (71)申请人北京博能科技股份有限公司地址 100080 北京市海淀区中关村大街1 1 号八层848室 (72)发明人周院进　朱婉艺　 (74)专利代理机构北京汉之知识产权代理事务所(普通合伙) 11479 代理人高园园 (51)Int.Cl. G06F 30/27(2020.01) (54)发明名称一种基于Muti-Agent与强化学习的机场融合仿真方法 (57)摘要本发明提供一种基于Muti ‑Agent与强化学习的机场融合仿真方法，包括以下步骤：构建道路Agent、交叉口Agent、模拟信号灯Agent、车辆 Agent和航空器Agent；对所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆 Agent、所述航空器Agent与环境的交互进行强化学习，以实现机场融合仿真。本发明的基于Muti ‑ Agent与强化学习的机场融合仿真方法基于多 Agent和强化学习实现机场交通的实时融合仿真，有效提升了机场运行中的跑道监控、路由规划及冲突探测与解脱。权利要求书2页说明书8页附图1页 CN 114254567 A 2022.03.29 CN 114254567 A 1.一种基于 Muti‑Agent与强化学习的机场融合仿真方法，其特征在于：包括以下步骤：构建道路Agent、交叉口Agent、模拟信号灯Agent、车辆Agent和航空器Agent；对所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent、所述航空器Agent与环境的交互进行强化学习，以实现机场融合仿真。 2.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：所述道路A gent包括感知单元、知识库、路段的基本属性单元、决策单元和通信单元；所述感知单元用于采集路段的交通数据，所述知识库用于存储路段交通评价方法，所述路段的基本属性单元用于存储路段的基本属性；所述决策单元用于基于所述知识库、所述路段的基本属性单元和所述感知单元提供的信息来对路段的交通情况进行评价，所述通信单元用于分别与所述航空器Agent、所述车辆Agent、所述交叉口Agent、所述信号灯Agent建立通信。 3.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：所述交叉口Agent用于根据经过车辆的行驶计划判断行驶路线的可行性。 4.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：所述模拟信号灯A gent用于实现信号灯调节，并与对应的交叉口A gent以及所述交叉口相关联的道路Agent进行通信。 5.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：所述车辆Agent包括感知器、车辆属性单元、行车计划单元和知识库；所述感知器用于感受车辆外界的刺激及环境的变化；所述车辆属性单元用于存储车辆属性信息；所述行车计划单元用于生成指车辆当前的驾驶路线，所述知识库用于存储车辆智能体所具有的知识、事实、控制规则及从外界获取的数据信息。 6.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：所述航空器Agent包括感知器、航空器属性单元、滑行路径单元和知识库；所述感知单元用来感受航空器外界的刺激及环境的变化；所述航空器属性单元用于存储航空器属性信息；所述滑行路径单元用于生成航空器的当前的驾驶路线；所述知识库用于存储航空器智能体所具有的知识、事实、控制规则及从外界获取的数据信息。 7.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：所述强化学习采用基于混合竞争的随机博弈；所述随机博弈采用纳什均衡策略。 8.根据权利要求7所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：所述道路Agent、所述交叉口Agent、所述模拟信号灯Agent、所述车辆Agent和所述航空器Agent分别在其他Agent的行为条件下选择自己的行动策略，使得所有Agent的策略都到达纳什均衡状态。 9.根据权利要求8所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：设定A genti表示第i个A gent， ri表示Agenti的奖励函数， A genti的目标是选择一个策略 πi，使目标函数最大化，其中E表示数学期望， t表示t时刻， πi,t表示Agenti在t时刻的目标策略， π‑i,t表示其他Agent在t时刻的目标策略， xt表示t时刻的环境状态空间， γ表示衰减系数。权　利　要　求　书 1/2 页 2 CN 114254567 A 210.根据权利要求7所述的基于Muti ‑Agent与强化学习的机场融合仿真方法，其特征在于：定义每一个控制模拟信号灯变化的行为主体是Agenti， πi为Agenti所有可接受的模拟信号灯时长控制策略，目标奖励Ri是所有Agent在整个交通环境下的拥堵程度，需满足Nu{r(x, u)+γi,Ex'～p(·|x,u)[V(x'； πi, π‑i)]}，其中N表示纳什算子， x表示agent的当前状态， x ’表示下一时刻agent的状态， u表示联合动作选择策略， γi表示Agenti的衰减系数， E表示数学期望， p表示概率， V表示价值函数， r表示奖励函数， πi表示Agenti的目标策略， π‑i表示其他 Agent的目标策略。权　利　要　求　书 2/2 页 3 CN 114254567 A 3

专利 一种基于Muti-Agent与强化学习的机场融合仿真方法

专利一种基于Muti-Agent与强化学习的机场融合仿真方法