说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210965612.9 (22)申请日 2022.08.12 (71)申请人 中国科学技术大学 地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人 朱进 王成意  (74)专利代理 机构 北京科迪生专利代理有限责 任公司 1 1251 专利代理师 金怡 (51)Int.Cl. A63F 13/67(2014.01) G06N 20/00(2019.01) G06N 7/00(2006.01) (54)发明名称 一种面向不同玩家的游戏AI训练方法及系 统 (57)摘要 本发明涉及一种面向不同玩家的游戏AI训 练方法及系统, 其方法包括: 步骤S1: 根据对手种 类M构建游戏AI的应对策略 采样 策略πs和奖励模型 步骤S2: 游戏AI使用采样 策略πs与对手交互, 采集各种类型对手的交互 数据; 步骤S3: 使用交互数据计算M个对手奖励模 型 其中, 表示第m类 对手奖励模型; 步骤S4: 使用极大极小Q学习算 法、 游戏模型 和奖励模型 学习第m类对手的 纳什均衡策略作为应对策略 重复步骤S4, 学习得到 所有类型对手的应对策略。 本发明提供 了一种面向不同玩家的游戏AI训练方法, 可以应 对对手类型不同的情况, 提高使所有玩家的满意 度。 权利要求书2页 说明书5页 附图3页 CN 115430154 A 2022.12.06 CN 115430154 A 1.一种面向不同玩家的游戏AI训练方法, 其特 征在于, 包括: 步骤S1: 根据对手种类M构建游戏AI的应对策略 采样策略πs和奖励模型 步骤S2: 游戏AI使用所述采样策略πs与对手交 互, 采集各种类型对手的交 互数据; 步骤S3: 使用所述交互数据计算M个对手奖励模型 其中, 表示 第m类对手奖励模型; 步骤S4: 使用极大极小Q学习算法、 游戏模型 和奖励模型 学习第m类对手的纳什均 衡策略作为应对策略 重复步骤S4, 学习得到所有类型对手的应对策略。 2.根据权利要求1所述的面向不同玩家的游戏AI训练方法, 其特征在于, 所述步骤S1: 根据对手种类M构建游戏AI的应对策略 奖励模型 和采样策略πs, 具体包括: 步骤S11: 构建一个包含M种类型对手的两人零和马尔科夫博弈模型, 用一个八元组 表示; 其中, 为状态空间, 分别为己方游戏AI、 敌 方对手的动作空间、 为转移概率矩阵、 为己方游戏AI奖励函数、 γ∈[0, 1)为折扣因子、 表示存在的M种类型对手, 表示博弈开始时每 个对手出现的概 率; 基于所述八元组, 构建游戏AI的应对策略 如公式(1)所示: 其中, 为纳什均衡策略, p(a)表示己方游戏AI与对手m交互时使用策略 在状态s 下使用动作a的概 率; 步骤S12: 构建采样策略πs, 如公式(2)所示: 其中, st为状态; at, bt分别为状态st下己方游 戏AI和对方分别使用动作at, bt; count(st, at, bt)表示状态st下, 己方游戏AI使用动作at, 敌方对手使用动作bt的总次数: 采样得到的结果如公式(3)所示: 其中, 为游戏模型, 公式(3)表示在游戏模型 中, 在状态st下己方游戏AI和敌方对手 分别使用动作at, bt, 游戏AI获得rt+1奖励, 状态转移至st+1; 同时, 收集到一条交互数据(st, at, bt, rt+1, st+1); 步骤S13: 构建对手相关奖励函数 如公式(4)所示: 其中, 奖励r为玩家的满意度; 表示在状态s下, 己方游戏AI与敌方对手分 别使用动作a, b, 获得奖励r的概率; count(r, s, a, b)表示在状态s下, 己方游戏AI与敌方对 手分别使用动作a, b, 获得 奖励为r的次数。 3.根据权利要求2所述的面向不同玩家的游戏AI训练方法, 其特征在于, 所述步骤S4: 使用极大极小Q学习算法、 游戏模型 和奖励模型 学习第m类对手的纳什均衡策略作为应 对策略 重复步骤S4, 学习得到所有类型对手的应对策略, 具体包括: 利用极大极小 Q学习算法先通过迭代 计算出各状态动作元组下的纳什均衡Q*值, 再通过权 利 要 求 书 1/2 页 2 CN 115430154 A 2求解如公式(5)所示的线性 规划: 其中, c是状态s下的纳什均衡V*值; 分别是己方游戏AI和敌方对 手的动作集合, Q* (s, a, b)是在 状态动作元组(s, a, b)下的纳什均衡Q*值, p(a)=π(a|s)是己方游戏AI在 状态 s下的应对策略。 4.一种面向不同玩家的游戏AI训练系统, 其特 征在于, 包括下述模块: 模型构建模块, 用于根据对手种类M构建游戏AI的应对策略 采样策略πs 和奖励模型 采集游戏交互数据模块, 用于游 戏AI使用所述采样策略πs与对手交互, 采 集各种类 型对 手的交互数据; 计算奖励模型模块, 用于使用所述交互数据计算M个对手奖励模型 其中, 表示第m类对手奖励模型; 学习应对策略模块, 用于使用极大极小Q学习算法、 游戏模型 和奖励模型 学习第m 类对手的纳什均衡策略作为应对策略 重复步骤S4, 学习得到所有类型对手的应对策 略。权 利 要 求 书 2/2 页 3 CN 115430154 A 3

.PDF文档 专利 一种面向不同玩家的游戏AI训练方法及系统

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种面向不同玩家的游戏AI训练方法及系统 第 1 页 专利 一种面向不同玩家的游戏AI训练方法及系统 第 2 页 专利 一种面向不同玩家的游戏AI训练方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:04:11上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。