说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111640102.6 (22)申请日 2021.12.2 9 (71)申请人 北京博能科技股份有限公司 地址 100080 北京市海淀区中关村大街1 1 号八层848室 (72)发明人 周院进 朱婉艺  (74)专利代理 机构 北京汉之知识产权代理事务 所(普通合伙) 11479 代理人 高园园 (51)Int.Cl. G06F 30/27(2020.01) (54)发明名称 一种基于Muti-Agent与强化学习的机场融 合仿真方法 (57)摘要 本发明提供一种基于Muti ‑Agent与强化学 习的机场融合仿真方法, 包括以下步骤: 构建道 路Agent、 交叉口Agent、 模拟信号灯Agent、 车辆 Agent和航空器Agent; 对所述道路Agent、 所述交 叉口Agent、 所述模拟信号灯Agent、 所述车辆 Agent、 所述航空器Agent与环境的交互进行 强化 学习, 以实现机场融合仿真。 本发明的基于Muti ‑ Agent与强化学习的机场融合仿真方法基于多 Agent和强化学习实现机场交通的实时融合仿 真, 有效提升了机场运行中的跑道监控、 路由规 划及冲突探测与解脱。 权利要求书2页 说明书8页 附图1页 CN 114254567 A 2022.03.29 CN 114254567 A 1.一种基于 Muti‑Agent与强化学习的机场融合仿真方法, 其特 征在于: 包括以下步骤: 构建道路Agent、 交叉口Agent、 模拟信号灯Agent、 车辆Agent和航空器Agent; 对所述道路Agent、 所述交叉口Agent、 所述模拟信号灯Agent、 所述车辆Agent、 所述航 空器Agent与环境的交 互进行强化学习, 以实现机场融合仿真。 2.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 所述道路A gent包括感知单元、 知识库、 路段的基本属性单元、 决策单元和通信单元; 所 述感知单元用于采集路段 的交通数据, 所述知识库用于存储路段交通评价方法, 所述路段 的基本属 性单元用于存储路段的基本属 性; 所述决策单元用于基于所述知识库、 所述路段 的基本属性单元和所述感知单元提供的信息来对路段的交通情况进行评价, 所述通信单元 用于分别与所述航空器Agent、 所述车辆Agent、 所述交叉口Agent、 所述信号灯Agent建立通 信。 3.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 所述交叉口Agent用于根据经 过车辆的行驶计划判断行驶路线的可 行性。 4.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 所述模拟信号灯A gent用于实现信号灯调节, 并与对应的交叉口A gent以及所述交叉口 相关联的道路Agent进行通信。 5.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 所述车辆Agent包括 感知器、 车辆属性单元、 行车计划单元和知识库; 所述 感知器用于感 受车辆外界的刺激及环境的变化; 所述车辆属 性单元用于存储车辆属 性信息; 所述行车计 划单元用于生成指车辆当前 的驾驶路线, 所述知识库用于存储车辆智能体所具有的知识、 事实、 控制规则及从外界获取的数据信息 。 6.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 所述航空器Agent包括感知器、 航空器属性单元、 滑行路径单元和知识库; 所述 感知单元 用来感受航空器外界的刺激及环境的变化; 所述航空器属性单元用于存储航空器属性信 息; 所述滑行路径单元用于生成航空器的当前 的驾驶路线; 所述知识库用于存储航空器智 能体所具有的知识、 事实、 控制规则及从外界获取的数据信息 。 7.根据权利要求1所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 所述强化学习采用基于混合 竞争的随机博 弈; 所述随机博 弈采用纳什均衡策略。 8.根据权利要求7所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 所述道路Agent、 所述交叉口Agent、 所述模拟信 号灯Agent、 所述车辆Agent和所述航空 器Agent分别在其他Agent的行为条件下选择 自己的行动 策略, 使得所有Agent的策略都到 达纳什均衡 状态。 9.根据权利要求8所述的基于Muti ‑Agent与强化学习的机场 融合仿真方法, 其特征在 于: 设定A genti表示第i个A gent, ri表示Agenti的奖励函数, A genti的目标是选择一个策略 πi, 使目标函数 最大化, 其中E表示数学期望, t表示t时 刻, πi,t表示Agenti在t时刻的目标策略, π‑i,t表示其他Agent在t时刻的目标策略, xt表示t时 刻的环境状态空间, γ表示衰减系数。权 利 要 求 书 1/2 页 2 CN 114254567 A 210.根据权利 要求7所述的基于Muti ‑Agent与强化学习的机场融合仿真方法, 其特征在 于: 定义每一个控制模拟信号灯变化的行为主体是Agenti, πi为Agenti所有可接受的模拟信 号灯时长控制策略, 目标奖励Ri是所有Agent在整个交通环境下的拥堵程度, 需满足Nu{r(x, u)+γi,Ex'~p(·|x,u)[V(x'; πi, π‑i)]}, 其中N表示纳什算子, x表示agent的当前状态, x ’表示 下一时刻agent的状态, u表示联合动作选择策略, γi表示Agenti的衰减系数, E表示数学期 望, p表示概率, V表示价值函数, r表示奖励函数, πi表示Agenti的目标策略, π‑i表示其他 Agent的目标 策略。权 利 要 求 书 2/2 页 3 CN 114254567 A 3

.PDF文档 专利 一种基于Muti-Agent与强化学习的机场融合仿真方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于Muti-Agent与强化学习的机场融合仿真方法 第 1 页 专利 一种基于Muti-Agent与强化学习的机场融合仿真方法 第 2 页 专利 一种基于Muti-Agent与强化学习的机场融合仿真方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:18:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。