(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111659123.2
(22)申请日 2021.12.31
(71)申请人 上海商汤科技 开发有限公司
地址 201306 上海市浦东 新区中国 (上海)
自由贸易试验区临港新片区环湖西二
路888号C楼
(72)发明人 李楚鸣 刘宇 王晓刚
(74)专利代理 机构 北京中知恒瑞知识产权代理
事务所(普通 合伙) 11889
代理人 袁忠林
(51)Int.Cl.
G05B 13/04(2006.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
(54)发明名称
网络训练、 机器人控制方法及装置、 设备及
存储介质
(57)摘要
本公开提供了一种网络训练、 机器人控制方
法及装置、 设备及存储介质, 其中, 训练方法包
括: 获取在 目标应用场景下的环境状态信息; 根
据所述环境状态信息和预训练的强化学习网络
得到动作序列信息, 并确定所述动作序列信息对
应的回报奖励总值, 所述动作序列信息用于指示
未来预设时长内至少两个连续的执行动作; 基于
回报奖励总值对强化学习网络的网络参数值进
行调整, 得到训练好的强化学习网络。 本公开中,
由回报奖励总值调整后的强化学习网络能够更
好的适应于动作序列的生成, 这样, 随着强化学
习网络的调整, 所生成的动作序列也越来越好。
在将训练好的强化学习网络应用到诸如需要进
行连续控制等复杂场景的情况下, 也可以具有较
好的控制性能。
权利要求书2页 说明书13页 附图2页
CN 114397817 A
2022.04.26
CN 114397817 A
1.一种网络训练方法, 其特 征在于, 包括:
获取在目标应用场景 下的环境状态信息;
根据所述环境状态信 息和预训练的强化学习网络得到动作序列信 息, 并确定所述动作
序列信息对应的回报奖励总值, 所述动作序列信息用于指示未来预设时长内至少两个连续
的执行动作;
基于所述 回报奖励总值对所述强化学习网络的网络参数值进行调整, 得到训练好的强
化学习网络; 其中, 所述训练好的强化学习网络用于获取对目标对 象进行连续控制的目标
动作序列, 所述目标动作序列对应的回报奖励总值大于预设阈值。
2.根据权利要求1所述的方法, 其特征在于, 所述确定所述动作序列信 息对应的回报奖
励总值, 包括:
将所述动作序列信 息作用于所述目标应用场景, 得到与 所述动作序列信 息对应的环境
状态序列信息以及回报奖励值集合; 所述回报奖励值集合包括顺序执行所述至少两个连续
的执行动作的情况 下、 每个执行动作分别对应的回报奖励值;
基于所述环境状态序列信息以及所述回报奖励值 集合, 得到所述回报奖励总值。
3.根据权利要求2所述的方法, 其特征在于, 所述基于所述环境状态序列信 息以及所述
回报奖励值 集合, 得到所述回报奖励总值, 包括:
针对所述至少两个连续的执行动作包括的每个执行动作, 从所述环境状态序列信 息以
及所述回报奖励值集合中, 分别确定与所述执行动作对应的环境状态以及在执行所述执行
动作的情况下, 产生的回报奖励值; 并基于所述回报奖励值以及在所述环境状态下 的环境
影响值, 确定针对所述执 行动作的回报奖励和值;
基于每个执行动作分别确定的回报奖励和值, 确定所述回报奖励总值。
4.根据权利要求3所述的方法, 其特征在于, 所述基于每个执行动作分别确定的回报奖
励和值, 确定所述回报奖励总值, 包括:
获取为每 个执行动作分别赋予的动作权 重值;
基于每个执行动作分别确定的回报奖励和值、 以及每个执行动作分别赋予的动作权重
值, 确定所述回报奖励总值。
5.根据权利要求1至4任一所述的方法, 其特征在于, 所述动作序列信息用于指示未来
预设时长内N个连续的执行动作, N为大于或等于2的整 数, 所述根据所述环 境状态信息和预
训练的强化学习网络得到动作序列信息, 包括:
根据所述预训练的强化学习网络、 所述目标应用场景第 n‑1时刻的环境状态确定第n个
执行动作, n 为整数, 且0<n≤N;
其中, 在n为1时, 所述目标应用场景第n ‑1时刻的环境状态根据所述环境状态信息确
定; 在1<n≤N时, 所述目标应用场景第n ‑1时刻的环 境状态根据所述目标应用场景第n ‑2时
刻的环境状态和第n ‑1个执行动作确定 。
6.根据权利要求1至5任一所述的方法, 其特征在于, 所述基于所述回报奖励总值对所
述强化学习网络的网络参数值进行调整, 得到训练好的强化学习网络, 包括:
循环执行以下步骤, 直至所述训练好的强化学习网络输出的目标动作序列对应的回报
奖励总值大于预设阈值;
基于所述 回报奖励总值对所述强化学习网络的网络参数值进行调整, 得到调整后的强权 利 要 求 书 1/2 页
2
CN 114397817 A
2化学习网络; 以及, 将所述动作序列信息作用于所述目标应用场景, 得到与所述动作序列信
息对应的环境状态序列信息;
将所述环境状态序列信息包括的最后一个环境状态信息输入到调整后的强化学习网
络, 得到所述强化学习网络输出的用于执行未来预设时长内多个连续的执行动作的动作序
列信息、 以及 在执行所述动作序列信息的情况 下, 产生的回报奖励总值。
7.一种机器人控制方法, 其特 征在于, 包括:
获取目标机器人 所处的当前环境状态信息;
将所述当前环境状态信息输入到利用权利要求1至6任一所述的网络训练方法所训练
好的强化学习网络, 得到用于对所述目标机器人进行 连续控制的目标动作序列。
8.根据权利要求7 所述的方法, 其特 征在于, 所述方法还 包括:
在接收到所述目标机器人发送的针对所述目标动作序列包括的当前执行动作的执行
成功指令的情况下, 向所述目标机器人下发用于执行所述当前执行动作的下一个执行动作
的动作指令 。
9.一种网络训练装置, 其特 征在于, 包括:
获取模块, 用于获取在目标应用场景 下的环境状态信息;
训练模块, 用于根据所述环境状态信息和预训练的强化学习 网络得到动作序列信息,
并确定所述动作序列信息对应的回报奖励总值, 所述动作序列信息用于指示未来预设时长
内至少两个连续的执 行动作;
调整模块, 用于基于所述回报奖励总值对所述强化学习 网络的网络参数值进行调整,
得到训练好的强化学习网络; 其中, 所述训练好的强化学习网络用于获取对目标对 象进行
连续控制的目标动作序列, 所述目标动作序列对应的回报奖励总值大于预设阈值。
10.一种机器人控制装置, 其特 征在于, 包括:
获取模块, 用于获取目标机器人 所处的当前环境状态信息;
控制模块, 用于将所述当前环境状态信 息输入到利用权利要求1至6任一所述的网络训
练方法所训练好的强化学习网络, 得到用于对 所述目标机器人进 行连续控制的目标动作序
列。
11.一种电子设备, 其特征在于, 包括: 处理器、 存储器和总线, 所述存储器存储有所述
处理器可执行 的机器可读指令, 当电子设备运行时, 所述处理器与所述存储器之间通过总
线通信, 所述机器可读指 令被所述处理器执行时执行如权利要求 1至6任一项 所述的网络训
练方法的步骤或者如权利要求7或8所述的机器人控制方法的步骤。
12.一种计算机可读存储介质, 其特征在于, 该计算机可读存储介质上存储有计算机程
序, 该计算机程序被处理器运行时执行如权利要求1至6任一项 所述的网络训练方法的步骤
或者如权利要求7或8所述的机器人控制方法的步骤。权 利 要 求 书 2/2 页
3
CN 114397817 A
3
专利 网络训练、机器人控制方法及装置、设备及存储介质
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:20:32上传分享