专利 用于虚拟自博弈智能体的重放经验池偏置更新方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111673436.3 (22)申请日 2021.12.31 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人余超　刘恒　 (74)专利代理机构广州三环专利商标代理有限公司 44202 代理人许羽冬 (51)Int.Cl. G06K 9/62(2022.01) G06F 16/2457(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称用于虚拟自博弈智能体的重放经验池偏置更新方法及装置 (57)摘要本发明公开了一种用于虚拟自博弈智能体的重放经验池偏置更新方法及装置，建立一个对在不同时刻进入经验池的样本能够依照其进入时刻赋予权重并依照该权重进行采样的先入先出队列偏置重放经验池，并利用各智能体距离优化目标差距的博弈动态信息对偏置重放经验池中数据进行赋权。采用本发明实施例，动态地对新数据赋予较高权重，使得深度Q学习网络进行更有效地学习，弱化深度Q学习网络更新时的延迟和偏差带来的负面效益。权利要求书2页说明书8页附图2页 CN 114266325 A 2022.04.01 CN 114266325 A 1.一种用于虚拟自博弈智能体的重放经验池偏置更新方法，其特征在于，包括：初始化动态预测参数、阶梯层数、层偏置系数、基础采样偏置系数、采样偏置系数限位比、先后手优势比例和变动烈度系数；根据所述阶梯层数、所述层偏置系数和属于不同队列的多个重放经验池，初始化偏置重放经验池；根据所述动态预测参数，设置策略源为深度Q值神经网络或平均策略神经网络；所述深度Q值神经网络包括动作Q 值神经网络和目标Q 值神经网络；根据强化学习智能体损失函数和对手强化学习智能体损失函数乘以所述先后手优势比例后的差值、所述基础采样偏置系数和所述采样偏置系数限位比和所述变动烈度系数，更新采样偏置系数；根据所述采样偏置系数，对所述偏置重放经验池进行偏置采样，并对偏置采样结果进行随机梯度下降，更新所述动作Q 值神经网络；根据所述动作Q 值神经网络周期性地更新所述目标Q 值神经网络；在监督学习经验池进行采样，并对所述监督学习经验池的采样结果进行随机梯度下降，更新所述平均策略神经网络；调用目前所述策略源，采样一个当前动作并执行，获得下一个状态的状态值及下一个状态的奖励值，并将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池。 2.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法，其特征在于，在所述调用目前所述策略源，采样一个当前动作并执行，获得下一个状态的状态值及下一个状态的奖励值，并将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池之后，还包括：若目前所述策略源为深度Q值神经网络，那么将含有当前状态的状态值、所述当前动作的元组存入所述监督学习经验池。 3.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法，其特征在于，所述采样偏置系数是在所述偏置重放经验池中进行采样的依据，用于指定旧加入的经验被采样到的概率与新加入的经验被采样到的概率之比。 4.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法，其特征在于，所述根据所述采样偏置系数，对所述偏置重放经验池进行偏置采样，具体包括：对所述偏置重放经验池的各层按照各层对应数目进行均匀概率采样，采样后返回各层采样结果的并集。 5.如权利要求1所述用于虚拟自博弈智能体的重放经验池偏置更新方法，其特征在于，所述将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池，具体包括：含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组加入所述偏置重放经验池的第一层队列头部，逐层将队尾最后一个经验被放入下一层队列头部。 6.一种用于虚拟自博弈智能体的重放经验池偏置更新装置，其特征在于，包括：参数初始化模块，用于初始化动态预测参数、阶梯层数、层偏置系数、基础采样偏置系权　利　要　求　书 1/2 页 2 CN 114266325 A 2数、采样偏置系数限位比、先后手优势比例和变动烈度系数；经验池初始模块，用于根据所述阶梯层数、所述层偏置系数和属于不同队列的多个重放经验池，初始化偏置重放经验池；根据所述动态预测参数，设置策略源为深度Q值神经网络或平均策略神经网络；所述深度Q值神经网络包括动作Q 值神经网络和目标Q 值神经网络；系数更新模块，用于根据强化学习智能体损失函数和对手强化学习智能体损失函数乘以所述先后手优势比例后的差值、所述基础采样偏置系数和所述采样偏置系数限位比和所述变动烈度系数，更新采样偏置系数；动作Q值更新模块，用于根据所述采样偏置系数，对所述偏置重放经验池进行偏置采样，并对偏置采样结果进行随机梯度下降，更新所述动作Q 值神经网络；目标Q值更新模块，用于根据所述动作Q值神经网络周期性地更新所述目标Q值神经网络；平均策略更新模块，用于在监督学习经验池进行采样，并对所述监督学习经验池的采样结果进行随机梯度下降，更新所述平均策略神经网络；经验池更新模块，用于调用目前所述策略源，采样一个当前动作并执行，获得下一个状态的状态值及下一个状态的奖励值，并将含有当前状态的状态值、所述当前动作、所述下一个状态的状态值、所述下一个状态的奖励值的元组存入所述偏置重放经验池。权　利　要　求　书 2/2 页 3 CN 114266325 A 3

专利 用于虚拟自博弈智能体的重放经验池偏置更新方法及装置

专利用于虚拟自博弈智能体的重放经验池偏置更新方法及装置