专利数据生成、驾驶策略验证、强化学习网络训练方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111277076.5 (22)申请日 2021.10.3 0 (71)申请人上海商汤临港智能科技有限公司地址 200232 上海市浦东新区中国（上海）自由贸易试验区临港新片区泥城镇秋山路1775弄29、 30号2楼01室 (72)发明人陈若冰　刘宇　王晓刚　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 代理人袁忠林 (51)Int.Cl. G06N 3/08(2006.01) G06F 30/27(2020.01) (54)发明名称数据生成、驾驶策略验证、强化学习网络训练方法及装置 (57)摘要本公开提供了一种数据生成、驾驶策略验证、强化学习网络训练方法、装置、电子设备及存储介质，该数据生成方法包括：获取采集的行驶案例信息；其中，所述行驶案例信息中包括对目标车辆的行驶存在影响的其他对象信息；基于所述行驶案例信息，在仿真器中构建与所述行驶案例信息匹配的行驶环境以及其他对象的行驶轨迹；以及基于所述行驶案例信息和设置的行驶约束条件，生成行为树信息；基于所述行为树信息，控制所述其他对象在所述行驶环境中按照所述行驶轨迹运行，得到所述驾驶案例对应的、在所述仿真器中的场景数据。权利要求书2页说明书14页附图4页 CN 113887726 A 2022.01.04 CN 113887726 A 1.一种数据生成方法，其特征在于，包括：获取采集的行驶案例信息；其中，所述行驶案例信息中包括对目标车辆的行驶存在影响的其他对象信息；基于所述行驶案例信息，在仿真器中构建与所述行驶案例信息匹配的行驶环境以及其他对象的行驶轨迹；以及基于所述行驶案例信息和设置的行驶约束条件，生成行为树信息；基于所述行为树信息，控制所述其他对象在所述行驶环境中按照所述行驶轨迹运行，得到所述驾驶案例对应的、在所述仿真器中的场景数据。 2.根据权利要求1所述的方法，其特征在于，所述获取采集的行驶案例信息，包括：获取在目标车辆的行驶过程中采集的案例初始信息，所述案例初始信息包括以下至少一种：路网信息、道路元素信息、交通灯信息、所述其他对象的对象行驶信息；所述其他对象包括其他车辆和/或行人；对所述案例初始信息进行坐标系变换调整，生成所述行驶案例信息，其中，所述行驶案例信息中的各个信息位于同一坐标系下。 3.根据权利要求1或2所述的方法，其特征在于，所述基于所述行驶案例信息，在仿真器中构建与所述行驶案例信息匹配的行驶环境，包括：从所述行驶案例信息中，提取与所述目标车辆和所述其他对象的行驶轨迹存在关联的目标环境信息；在仿真器中构建与所述目标环境信息匹配的行驶环境。 4.根据权利要求1～3任一所述的方法，其特征在于，所述基于所述行驶案例信息，在仿真器中构建其他对象的行驶轨迹，包括：基于所述仿真器的更新频率和所述行驶案例信息指示的所述其他对象的速度信息，确定中间路径点的设置周期；基于所述行驶案例信息指示的所述其他对象的对象行驶信息和所述设置周期，在仿真器中设置多个中间路径点；其中，所述中间路径点为所述其他对象需要途径的位置；基于所述多个中间路径点，在仿真器中构建其他对象的行驶轨迹。 5.根据权利要求1～4任一所述的方法，其特征在于，所述行驶约束条件包括以下至少一种：约束所述目标车辆行驶的条件、约束所述其他对象行驶的条件、约束所述目标车辆与所述其他对象之间关系的条件。 6.根据权利要求1～5任一所述的方法，其特征在于，所述基于所述行驶案例信息和设置的行驶约束条件，生成行为树信息，包括：基于所述行驶案例信息和设置的行驶约束条件，生成候选行为树信息；响应于所述候选行为树信息测试成功，将所述候选行为树信息，确定为行为树信息。 7.一种驾驶策略验证方法，其特征在于，包括：获取待验证驾驶策略；基于所述待验证驾驶策略，控制待测车辆在场景数据指示的驾驶场景下行驶，生成驾驶结果；其中，所述场景数据为基于权利要求1至 6任一所述的数据生成方法生成的。 8.根据权利要求7 所述的方法，其特征在于，所述方法还包括：在所述驾驶结果指示车辆驾驶失败的情况下，确定驾驶失败信息；权　利　要　求　书 1/2 页 2 CN 113887726 A 2基于所述驾驶失败信息，生成用于指示修改驾驶策略的提示信息。 9.一种强化学习网络训练方法，其特征在于，包括：获取各个驾驶案例分别对应的场景数据；其中，所述场景数据为基于权利要求1至6任一所述的数据生成方法生成的；利用所述场景数据，对待训练强化学习网络进行训练，得到训练后的强化学习网络。 10.一种数据生成装置，其特征在于，包括：第一获取模块，用于获取采集的行驶案例信息；其中，所述行驶案例信息中包括对目标车辆的行驶存在影响的其他对象信息；第一生成模块，用于基于所述行驶案例信息，在仿真器中构建与所述行驶案例信息匹配的行驶环境以及其他对象的行驶轨迹；以及第二生成模块，用于基于所述行驶案例信息和设置的行驶约束条件，生成行为树信息；第三生成模块，用于基于所述行为树信息，控制所述其他对象在所述行驶环境中按照所述行驶轨迹运行，得到所述驾驶案例对应的、在所述仿真器中的场景数据。 11.一种驾驶策略验证装置，其特征在于，包括：第二获取模块，用于获取待验证驾驶策略；控制模块，用于基于所述待验证驾驶策略，控制待测车辆在场景数据指示的驾驶场景下行驶，生成驾驶结果；其中，所述场景数据为基于权利要求 1至6任一所述的数据生成方法生成的。 12.一种强化学习网络训练装置，其特征在于，包括：第三获取模块，用于获取各个驾驶案例分别对应的场景数据；其中，所述场景数据为基于权利要求1至 6任一所述的数据生成方法生成的；训练模块，用于利用所述场景数据，对待训练强化学习网络进行训练，得到训练后的强化学习网络。 13.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求 1至6任一所述的数据生成方法的步骤；或执行如权利要求7至8任一所述的驾驶策略验证方法的步骤；或执行如权利要求9所述的强化学习网络训练方法的步骤。 14.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一所述的数据生成方法的步骤；或执行如权利要求7至8任一所述的驾驶策略验证方法的步骤；或执行如权利要求9所述的强化学习网络训练方法的步骤。权　利　要　求　书 2/2 页 3 CN 113887726 A 3

专利 数据生成、驾驶策略验证、强化学习网络训练方法及装置

专利数据生成、驾驶策略验证、强化学习网络训练方法及装置