专利 网络训练、机器人控制方法及装置、设备及存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111659123.2 (22)申请日 2021.12.31 (71)申请人上海商汤科技开发有限公司地址 201306 上海市浦东新区中国（上海）自由贸易试验区临港新片区环湖西二路888号C楼 (72)发明人李楚鸣　刘宇　王晓刚　 (74)专利代理机构北京中知恒瑞知识产权代理事务所(普通合伙) 11889 代理人袁忠林 (51)Int.Cl. G05B 13/04(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) (54)发明名称网络训练、机器人控制方法及装置、设备及存储介质 (57)摘要本公开提供了一种网络训练、机器人控制方法及装置、设备及存储介质，其中，训练方法包括：获取在目标应用场景下的环境状态信息；根据所述环境状态信息和预训练的强化学习网络得到动作序列信息，并确定所述动作序列信息对应的回报奖励总值，所述动作序列信息用于指示未来预设时长内至少两个连续的执行动作；基于回报奖励总值对强化学习网络的网络参数值进行调整，得到训练好的强化学习网络。本公开中，由回报奖励总值调整后的强化学习网络能够更好的适应于动作序列的生成，这样，随着强化学习网络的调整，所生成的动作序列也越来越好。在将训练好的强化学习网络应用到诸如需要进行连续控制等复杂场景的情况下，也可以具有较好的控制性能。权利要求书2页说明书13页附图2页 CN 114397817 A 2022.04.26 CN 114397817 A 1.一种网络训练方法，其特征在于，包括：获取在目标应用场景下的环境状态信息；根据所述环境状态信息和预训练的强化学习网络得到动作序列信息，并确定所述动作序列信息对应的回报奖励总值，所述动作序列信息用于指示未来预设时长内至少两个连续的执行动作；基于所述回报奖励总值对所述强化学习网络的网络参数值进行调整，得到训练好的强化学习网络；其中，所述训练好的强化学习网络用于获取对目标对象进行连续控制的目标动作序列，所述目标动作序列对应的回报奖励总值大于预设阈值。 2.根据权利要求1所述的方法，其特征在于，所述确定所述动作序列信息对应的回报奖励总值，包括：将所述动作序列信息作用于所述目标应用场景，得到与所述动作序列信息对应的环境状态序列信息以及回报奖励值集合；所述回报奖励值集合包括顺序执行所述至少两个连续的执行动作的情况下、每个执行动作分别对应的回报奖励值；基于所述环境状态序列信息以及所述回报奖励值集合，得到所述回报奖励总值。 3.根据权利要求2所述的方法，其特征在于，所述基于所述环境状态序列信息以及所述回报奖励值集合，得到所述回报奖励总值，包括：针对所述至少两个连续的执行动作包括的每个执行动作，从所述环境状态序列信息以及所述回报奖励值集合中，分别确定与所述执行动作对应的环境状态以及在执行所述执行动作的情况下，产生的回报奖励值；并基于所述回报奖励值以及在所述环境状态下的环境影响值，确定针对所述执行动作的回报奖励和值；基于每个执行动作分别确定的回报奖励和值，确定所述回报奖励总值。 4.根据权利要求3所述的方法，其特征在于，所述基于每个执行动作分别确定的回报奖励和值，确定所述回报奖励总值，包括：获取为每个执行动作分别赋予的动作权重值；基于每个执行动作分别确定的回报奖励和值、以及每个执行动作分别赋予的动作权重值，确定所述回报奖励总值。 5.根据权利要求1至4任一所述的方法，其特征在于，所述动作序列信息用于指示未来预设时长内N个连续的执行动作， N为大于或等于2的整数，所述根据所述环境状态信息和预训练的强化学习网络得到动作序列信息，包括：根据所述预训练的强化学习网络、所述目标应用场景第 n‑1时刻的环境状态确定第n个执行动作， n 为整数，且0＜n≤N；其中，在n为1时，所述目标应用场景第n ‑1时刻的环境状态根据所述环境状态信息确定；在1＜n≤N时，所述目标应用场景第n ‑1时刻的环境状态根据所述目标应用场景第n ‑2时刻的环境状态和第n ‑1个执行动作确定。 6.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述回报奖励总值对所述强化学习网络的网络参数值进行调整，得到训练好的强化学习网络，包括：循环执行以下步骤，直至所述训练好的强化学习网络输出的目标动作序列对应的回报奖励总值大于预设阈值；基于所述回报奖励总值对所述强化学习网络的网络参数值进行调整，得到调整后的强权　利　要　求　书 1/2 页 2 CN 114397817 A 2化学习网络；以及，将所述动作序列信息作用于所述目标应用场景，得到与所述动作序列信息对应的环境状态序列信息；将所述环境状态序列信息包括的最后一个环境状态信息输入到调整后的强化学习网络，得到所述强化学习网络输出的用于执行未来预设时长内多个连续的执行动作的动作序列信息、以及在执行所述动作序列信息的情况下，产生的回报奖励总值。 7.一种机器人控制方法，其特征在于，包括：获取目标机器人所处的当前环境状态信息；将所述当前环境状态信息输入到利用权利要求1至6任一所述的网络训练方法所训练好的强化学习网络，得到用于对所述目标机器人进行连续控制的目标动作序列。 8.根据权利要求7 所述的方法，其特征在于，所述方法还包括：在接收到所述目标机器人发送的针对所述目标动作序列包括的当前执行动作的执行成功指令的情况下，向所述目标机器人下发用于执行所述当前执行动作的下一个执行动作的动作指令。 9.一种网络训练装置，其特征在于，包括：获取模块，用于获取在目标应用场景下的环境状态信息；训练模块，用于根据所述环境状态信息和预训练的强化学习网络得到动作序列信息，并确定所述动作序列信息对应的回报奖励总值，所述动作序列信息用于指示未来预设时长内至少两个连续的执行动作；调整模块，用于基于所述回报奖励总值对所述强化学习网络的网络参数值进行调整，得到训练好的强化学习网络；其中，所述训练好的强化学习网络用于获取对目标对象进行连续控制的目标动作序列，所述目标动作序列对应的回报奖励总值大于预设阈值。 10.一种机器人控制装置，其特征在于，包括：获取模块，用于获取目标机器人所处的当前环境状态信息；控制模块，用于将所述当前环境状态信息输入到利用权利要求1至6任一所述的网络训练方法所训练好的强化学习网络，得到用于对所述目标机器人进行连续控制的目标动作序列。 11.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如权利要求 1至6任一项所述的网络训练方法的步骤或者如权利要求7或8所述的机器人控制方法的步骤。 12.一种计算机可读存储介质，其特征在于，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如权利要求1至6任一项所述的网络训练方法的步骤或者如权利要求7或8所述的机器人控制方法的步骤。权　利　要　求　书 2/2 页 3 CN 114397817 A 3

专利 网络训练、机器人控制方法及装置、设备及存储介质

专利网络训练、机器人控制方法及装置、设备及存储介质