专利一种面向不同玩家的游戏AI训练方法及系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210965612.9 (22)申请日 2022.08.12 (71)申请人中国科学技术大学地址 230026 安徽省合肥市包河区金寨路 96号 (72)发明人朱进　王成意　 (74)专利代理机构北京科迪生专利代理有限责任公司 1 1251 专利代理师金怡 (51)Int.Cl. A63F 13/67(2014.01) G06N 20/00(2019.01) G06N 7/00(2006.01) (54)发明名称一种面向不同玩家的游戏AI训练方法及系统 (57)摘要本发明涉及一种面向不同玩家的游戏AI训练方法及系统，其方法包括：步骤S1：根据对手种类M构建游戏AI的应对策略采样策略πs和奖励模型步骤S2：游戏AI使用采样策略πs与对手交互，采集各种类型对手的交互数据；步骤S3：使用交互数据计算M个对手奖励模型其中，表示第m类对手奖励模型；步骤S4：使用极大极小Q学习算法、游戏模型和奖励模型学习第m类对手的纳什均衡策略作为应对策略重复步骤S4，学习得到所有类型对手的应对策略。本发明提供了一种面向不同玩家的游戏AI训练方法，可以应对对手类型不同的情况，提高使所有玩家的满意度。权利要求书2页说明书5页附图3页 CN 115430154 A 2022.12.06 CN 115430154 A 1.一种面向不同玩家的游戏AI训练方法，其特征在于，包括：步骤S1：根据对手种类M构建游戏AI的应对策略采样策略πs和奖励模型步骤S2：游戏AI使用所述采样策略πs与对手交互，采集各种类型对手的交互数据；步骤S3：使用所述交互数据计算M个对手奖励模型其中，表示第m类对手奖励模型；步骤S4：使用极大极小Q学习算法、游戏模型和奖励模型学习第m类对手的纳什均衡策略作为应对策略重复步骤S4，学习得到所有类型对手的应对策略。 2.根据权利要求1所述的面向不同玩家的游戏AI训练方法，其特征在于，所述步骤S1：根据对手种类M构建游戏AI的应对策略奖励模型和采样策略πs，具体包括：步骤S11：构建一个包含M种类型对手的两人零和马尔科夫博弈模型，用一个八元组表示；其中，为状态空间，分别为己方游戏AI、敌方对手的动作空间、为转移概率矩阵、为己方游戏AI奖励函数、 γ∈[0， 1)为折扣因子、表示存在的M种类型对手，表示博弈开始时每个对手出现的概率；基于所述八元组，构建游戏AI的应对策略如公式(1)所示：其中，为纳什均衡策略， p(a)表示己方游戏AI与对手m交互时使用策略在状态s 下使用动作a的概率；步骤S12：构建采样策略πs，如公式(2)所示：其中， st为状态； at， bt分别为状态st下己方游戏AI和对方分别使用动作at， bt； count(st， at， bt)表示状态st下，己方游戏AI使用动作at，敌方对手使用动作bt的总次数：采样得到的结果如公式(3)所示：其中，为游戏模型，公式(3)表示在游戏模型中，在状态st下己方游戏AI和敌方对手分别使用动作at， bt，游戏AI获得rt+1奖励，状态转移至st+1；同时，收集到一条交互数据(st， at， bt， rt+1， st+1)；步骤S13：构建对手相关奖励函数如公式(4)所示：其中，奖励r为玩家的满意度；表示在状态s下，己方游戏AI与敌方对手分别使用动作a， b，获得奖励r的概率； count(r， s， a， b)表示在状态s下，己方游戏AI与敌方对手分别使用动作a， b，获得奖励为r的次数。 3.根据权利要求2所述的面向不同玩家的游戏AI训练方法，其特征在于，所述步骤S4：使用极大极小Q学习算法、游戏模型和奖励模型学习第m类对手的纳什均衡策略作为应对策略重复步骤S4，学习得到所有类型对手的应对策略，具体包括：利用极大极小 Q学习算法先通过迭代计算出各状态动作元组下的纳什均衡Q*值，再通过权　利　要　求　书 1/2 页 2 CN 115430154 A 2求解如公式(5)所示的线性规划：其中， c是状态s下的纳什均衡V*值；分别是己方游戏AI和敌方对手的动作集合， Q* (s， a， b)是在状态动作元组(s， a， b)下的纳什均衡Q*值， p(a)＝π(a|s)是己方游戏AI在状态 s下的应对策略。 4.一种面向不同玩家的游戏AI训练系统，其特征在于，包括下述模块：模型构建模块，用于根据对手种类M构建游戏AI的应对策略采样策略πs 和奖励模型采集游戏交互数据模块，用于游戏AI使用所述采样策略πs与对手交互，采集各种类型对手的交互数据；计算奖励模型模块，用于使用所述交互数据计算M个对手奖励模型其中，表示第m类对手奖励模型；学习应对策略模块，用于使用极大极小Q学习算法、游戏模型和奖励模型学习第m 类对手的纳什均衡策略作为应对策略重复步骤S4，学习得到所有类型对手的应对策略。权　利　要　求　书 2/2 页 3 CN 115430154 A 3

专利 一种面向不同玩家的游戏AI训练方法及系统

专利一种面向不同玩家的游戏AI训练方法及系统