说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111277076.5 (22)申请日 2021.10.3 0 (71)申请人 上海商汤临港智能科技有限公司 地址 200232 上海市浦东 新区中国 (上海) 自由贸易试验区临港新片区泥城镇秋 山路1775弄29、 30号2楼01室 (72)发明人 陈若冰 刘宇 王晓刚  (74)专利代理 机构 北京中知恒瑞知识产权代理 事务所(普通 合伙) 11889 代理人 袁忠林 (51)Int.Cl. G06N 3/08(2006.01) G06F 30/27(2020.01) (54)发明名称 数据生成、 驾驶策略验证、 强化学习网络训 练方法及装置 (57)摘要 本公开提供了一种数据生成、 驾驶策略验 证、 强化学习网络训练方法、 装置、 电子设备及存 储介质, 该数据生成方法包括: 获取采集的行驶 案例信息; 其中, 所述行驶案例信息中包括对目 标车辆的行驶存在影响的其他对象信息; 基于所 述行驶案例信息, 在仿真器中构建与所述行驶案 例信息匹配的行驶环境 以及其他对象的行驶轨 迹; 以及基于所述行驶案例信息和设置的行驶约 束条件, 生成行为树信息; 基于所述行为树信息, 控制所述其他对象在所述行驶环境中按照所述 行驶轨迹运行, 得到所述驾驶案例对应的、 在所 述仿真器中的场景 数据。 权利要求书2页 说明书14页 附图4页 CN 113887726 A 2022.01.04 CN 113887726 A 1.一种数据生成方法, 其特 征在于, 包括: 获取采集的行驶案例信息; 其中, 所述行驶案例信息中包括对目标车辆的行驶存在影 响的其他对象信息; 基于所述行驶案例信 息, 在仿真器中构建与所述行驶案例信 息匹配的行驶环境以及其 他对象的行驶轨 迹; 以及 基于所述行驶案例信息和设置的行驶约束条件, 生成行为 树信息; 基于所述行为树信息, 控制所述其他对象在所述行驶环境中按照所述行驶轨迹运行, 得到所述驾驶案例对应的、 在所述仿真器中的场景 数据。 2.根据权利要求1所述的方法, 其特 征在于, 所述获取采集的行驶案例信息, 包括: 获取在目标车辆的行驶过程中采集的案例初始信 息, 所述案例初始信 息包括以下至少 一种: 路网信息、 道路元素信息、 交通灯信息、 所述其他对象的对象行驶信息; 所述其他对象 包括其他车辆和/或行 人; 对所述案例初始信 息进行坐标系变换调整, 生成所述行驶案例信 息, 其中, 所述行驶案 例信息中的各个信息位于同一 坐标系下。 3.根据权利要求1或2所述的方法, 其特征在于, 所述基于所述行驶案例信息, 在仿真器 中构建与所述行驶案例信息匹配的行驶环境, 包括: 从所述行驶案例信 息中, 提取与 所述目标车辆和所述其他对象的行驶轨迹存在 关联的 目标环境信息; 在仿真器中构建与所述目标环境信息匹配的行驶环境。 4.根据权利要求1~3任一所述的方法, 其特征在于, 所述基于所述行驶案例信 息, 在仿 真器中构建其 他对象的行驶轨 迹, 包括: 基于所述仿真器的更新频率和所述行驶案例信 息指示的所述其他对象的速度信 息, 确 定中间路径点的设置周期; 基于所述行驶案例信 息指示的所述其他对象的对象行驶信 息和所述设置周期, 在仿真 器中设置多个中间路径点; 其中, 所述中间路径点 为所述其他对象需要途径的位置; 基于所述多个中间路径点, 在仿真器中构建其 他对象的行驶轨 迹。 5.根据权利要求1~4任一所述的方法, 其特征在于, 所述行驶约束条件包括以下至少 一种: 约束 所述目标车辆行驶的条件、 约束 所述其他对象行驶的条件、 约束所述目标车辆与 所述其他对象之间关系的条件。 6.根据权利要求1~5任一所述的方法, 其特征在于, 所述基于所述行驶案例信息和设 置的行驶约束条件, 生成行为 树信息, 包括: 基于所述行驶案例信息和设置的行驶约束条件, 生成候选行为 树信息; 响应于所述 候选行为 树信息测试成功, 将所述 候选行为 树信息, 确定为行为 树信息。 7.一种驾驶策略验证方法, 其特 征在于, 包括: 获取待验证驾驶策略; 基于所述待验证驾驶策略, 控制待测车辆在场景数据指示的驾驶场景下行驶, 生成驾 驶结果; 其中, 所述场景 数据为基于 权利要求1至 6任一所述的数据生成方法生成的。 8.根据权利要求7 所述的方法, 其特 征在于, 所述方法还 包括: 在所述驾驶结果指示车辆驾驶失败的情况 下, 确定驾驶失败信息;权 利 要 求 书 1/2 页 2 CN 113887726 A 2基于所述驾驶失败信息, 生成用于指示 修改驾驶策略的提 示信息。 9.一种强化学习网络训练方法, 其特 征在于, 包括: 获取各个驾驶案例分别对应的场景数据; 其中, 所述场景数据为基于权利要求1至6任 一所述的数据生成方法生成的; 利用所述场景 数据, 对待训练强化学习网络进行训练, 得到训练后的强化学习网络 。 10.一种数据生成装置, 其特 征在于, 包括: 第一获取模块, 用于获取采集的行驶案例信 息; 其中, 所述行驶案例信息 中包括对目标 车辆的行驶存在影响的其 他对象信息; 第一生成模块, 用于基于所述行驶案例信息, 在仿真器中构建与所述行驶案例信息匹 配的行驶环境以及其 他对象的行驶轨 迹; 以及 第二生成模块, 用于基于所述行驶案例信息和设置的行驶约束条件, 生成行为 树信息; 第三生成模块, 用于基于所述行为树信息, 控制所述其他对象在所述行驶环境中按照 所述行驶轨 迹运行, 得到所述驾驶案例对应的、 在所述仿真器中的场景 数据。 11.一种驾驶策略验证装置, 其特 征在于, 包括: 第二获取模块, 用于获取待验证驾驶策略; 控制模块, 用于基于所述待验证驾驶策略, 控制待测车辆在场景数据指示的驾驶场景 下行驶, 生成驾驶结果; 其中, 所述场景数据为基于权利要求 1至6任一所述的数据生 成方法 生成的。 12.一种强化学习网络训练装置, 其特 征在于, 包括: 第三获取模块, 用于获取各个驾驶案例分别 对应的场景数据; 其中, 所述场景数据为基 于权利要求1至 6任一所述的数据生成方法生成的; 训练模块, 用于利用所述场景数据, 对待训练强化学习网络进行训练, 得到训练后的强 化学习网络 。 13.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述 处理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总 线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至6任一所述的数据生成 方法的步骤; 或执行如权利要求7至8任一所述的驾驶策略验证方法的步骤; 或执行如权利 要求9所述的强化学习网络训练方法的步骤。 14.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程 序, 该计算机程序被处理器运行时执行如权利要求1至6任一所述的数据生成方法的步骤; 或执行如权利要求7至8任一所述的驾驶策略验证方法的步骤; 或执行如权利要求9所述的 强化学习网络训练方法的步骤。权 利 要 求 书 2/2 页 3 CN 113887726 A 3

.PDF文档 专利 数据生成、驾驶策略验证、强化学习网络训练方法及装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 数据生成、驾驶策略验证、强化学习网络训练方法及装置 第 1 页 专利 数据生成、驾驶策略验证、强化学习网络训练方法及装置 第 2 页 专利 数据生成、驾驶策略验证、强化学习网络训练方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:17:13上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。