说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111673436.3 (22)申请日 2021.12.31 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 余超 刘恒 (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 代理人 许羽冬 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/2457(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 用于虚拟自博弈智能体的重放经验池偏置 更新方法及装置 (57)摘要 本发明公开了一种用于虚拟自博弈智能体 的重放经验池偏置更新方法及装置, 建立一个对 在不同时刻进入经验池的样本能够依照其进入 时刻赋予权重并依照该权重进行采样的先入先 出队列偏置重放经验池, 并利用各智能体距离优 化目标差距的博弈动态信息对偏置重放经验池 中数据进行赋权。 采用本发明实施例, 动态地对 新数据赋予较高权重, 使得深度Q学习网络进行 更有效地学习, 弱化深度Q学习网络更新时的延 迟和偏差带来的负面效益。 权利要求书2页 说明书8页 附图2页 CN 114266325 A 2022.04.01 CN 114266325 A 1.一种用于虚拟自博 弈智能体的重放经验 池偏置更新方法, 其特 征在于, 包括: 初始化动态预测参数、 阶梯层数、 层偏置系数、 基础采样偏置系数、 采样偏置系数限位 比、 先后手优势比例和变动 烈度系数; 根据所述阶梯层数、 所述层偏置系数和属于不同队列的多个重放经验池, 初始化偏置 重放经验 池; 根据所述动态预测参数, 设置策略源为深度Q值神经网络或平均策略神经网络; 所述深 度Q值神经网络包括动作Q 值神经网络和目标Q 值神经网络; 根据强化学习智能体损失函数和对手强化学习智能体损失函数乘以所述先后手优势 比例后的差值、 所述基础采样偏置系 数和所述采样偏置系 数限位比和所述变动烈度系 数, 更新采样 偏置系数; 根据所述采样偏置系数, 对所述偏置重放经验池进行偏置采样, 并对偏置采样结果进 行随机梯度下降, 更新所述动作Q 值神经网络; 根据所述动作Q 值神经网络周期性 地更新所述目标Q 值神经网络; 在监督学习经验池进行采样, 并对所述监督学习经验池的采样结果进行随机梯度下 降, 更新所述平均策略神经网络; 调用目前所述策略源, 采样一个当前动作并执行, 获得下一个状态的状态值及下一个 状态的奖励值, 并将含有当前状态的状态值、 所述当前动作、 所述下一个状态的状态值、 所 述下一个 状态的奖励值的元组存 入所述偏置 重放经验 池。 2.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法, 其特征在于, 在所述调用目前所述策略源, 采样一个当前动作并执行, 获得下一个状态的状态值及下一 个状态的奖励值, 并将含有当前状态的状态值、 所述当前动作、 所述下一个状态的状态值、 所述下一个 状态的奖励值的元组存 入所述偏置 重放经验 池之后, 还 包括: 若目前所述策略源为深度Q值神经网络, 那么将含有当前状态的状态值、 所述当前动作 的元组存 入所述监督学习经验 池。 3.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法, 其特征在于, 所述采样偏置系数是在所述偏置重放经验池中进 行采样的依据, 用于指定旧加入的经验被 采样到的概 率与新加入的经验被采样到的概 率之比。 4.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法, 其特征在于, 所述根据所述采样 偏置系数, 对所述偏置 重放经验 池进行偏置采样, 具体包括: 对所述偏置重放经验池的各层按照各层对应数目进行均匀概率采样, 采样后返回各层 采样结果的并集。 5.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法, 其特征在于, 所述将含有当前状态的状态值、 所述当前动作、 所述下一个状态的状态值、 所述下一个状态 的奖励值的元组存 入所述偏置 重放经验 池, 具体包括: 含有当前状态的状态值、 所述当前动作、 所述下一个状态的状态值、 所述下一个状态的 奖励值的元组加入所述偏置重放经验池的第一层队列头部, 逐层将队尾最后一个经验被放 入下一层队列头 部。 6.一种用于虚拟自博 弈智能体的重放经验 池偏置更新装置, 其特 征在于, 包括: 参数初始化模块, 用于初始化动态预测参数、 阶梯层数、 层偏置系数、 基础采样偏置系权 利 要 求 书 1/2 页 2 CN 114266325 A 2数、 采样偏置系数限位比、 先后手优势比例和变动 烈度系数; 经验池初始模块, 用于根据所述阶梯层数、 所述层偏置系数和属于不同队列的多个重 放经验池, 初始化偏置 重放经验 池; 根据所述动态预测参数, 设置策略源为深度Q值神经网络或平均策略神经网络; 所述深 度Q值神经网络包括动作Q 值神经网络和目标Q 值神经网络; 系数更新模块, 用于根据强化学习智能体损失函数和对手强化学习智能体损失函数乘 以所述先后手优势比例后的差值、 所述基础采样偏置系数和所述采样偏置系数限位比和所 述变动烈度系数, 更新采样 偏置系数; 动作Q值更新模块, 用于根据所述采样偏置系数, 对所述偏置重放经验池进行偏置采 样, 并对偏置采样结果进行随机梯度下降, 更新所述动作Q 值神经网络; 目标Q值更新模块, 用于根据所述动作Q值神经网络周期性地更新所述目标Q值神经网 络; 平均策略更新模块, 用于在监督学习经验池进行采样, 并对所述监督学习经验池的采 样结果进行随机梯度下降, 更新所述平均策略神经网络; 经验池更新模块, 用于调用目前所述策略源, 采样一个当前动作并执行, 获得下一个状 态的状态值及下一个状态的奖励值, 并将含有当前状态的状态值、 所述当前动作、 所述下一 个状态的状态值、 所述下一个 状态的奖励值的元组存 入所述偏置 重放经验 池。权 利 要 求 书 2/2 页 3 CN 114266325 A 3
专利 用于虚拟自博弈智能体的重放经验池偏置更新方法及装置
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 00:20:24
上传分享
举报
下载
原文档
(656.8 KB)
分享
友情链接
T-GCHA 1.3—2018 定制家居产品 人造板定制衣柜 第3部分:有害物质限量及气味等级.pdf
DB42-T 1951-2023 桥梁结构健康信息化监测技术规范 湖北省.pdf
T-CEC 664—2022 电力行业职业技能标准 电力网络安全员.pdf
T-CPMA 025—2021 预防接种车基本功能标准.pdf
GB 29440-2012 炭黑单位产品能源消耗限额.pdf
GB-T 29072-2012 航天器研制技术流程编写规则.pdf
YD-T 3763.8-2021 研发运营一体化(DevOps)能力成熟度模型 第8部分:系统和工具技术要求.pdf
HJ 1238—2021 汽车排放定期检验信息采集传输技术规范.pdf
GB-T 36007-2018 锄草机器人通用技术条件.pdf
DB14-T 1502-2017 富硒谷子栽培技术规程 山西省.pdf
T-ZJEI 008—2023 制造业企业 数字化技术改造指南.pdf
GB-T 19438.1-2004 禽流感病毒通用荧光 RT-PCR 检测方法.pdf
T-SOFIDPA 0004—2023 有机肥 好氧发酵 低碳技术规范.pdf
GB-T 8013.1-2018 铝及铝合金阳极氧化膜与有机聚合物膜 第1部分:阳极氧化膜.pdf
DB23-T 1574—2020 森林火灾林木损失调查评估技术规程 黑龙江省.pdf
GB-T 6996-2012 透射式电视测试图.pdf
GB-T 36549-2018 电化学储能电站运行指标及评价.pdf
GB-T 10000-2023 中国成年人人体尺寸.pdf
GB-T 38289-2019 城市燃气设施运行安全信息分类与基本要求.pdf
GB 29837-2013 火灾探测报警产品的维修保养与报废.pdf
1
/
3
13
评价文档
赞助1.5元 点击下载(656.8 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。