专利一种微电网频率恢复和功率分配控制方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111639689.9 (22)申请日 2021.12.2 9 (71)申请人南昌大学地址 330031 江西省南昌市红谷滩区学府大道999号 (72)发明人万晓凤　肖磊　戴钟书　丁小华　 (51)Int.Cl. H02J 3/48(2006.01) H02J 3/06(2006.01) H02J 3/24(2006.01) H02J 3/26(2006.01) G06N 20/00(2019.01) (54)发明名称一种微电网频率恢复和功率分配控制方法 (57)摘要一种微电网频率恢复和功率分配控制方法，包括以下步骤：将博弈论与强化学习相结合得到 Nash Q强化学习控制方法，当系统检测到微电网频率发生偏差时，引入下垂控制进行功率补偿以恢复频率，将各分布式电源看成系统中的智能体，利用Nash Q强化学习将微电网频率恢复和功率分配作为学习目标，根据下垂控制中各分布式电源频率偏差定义奖惩，通过获取对手智能体的信息进行矩阵博弈，寻找功率分配的纳什均衡解。本发明实现了微电网频率的快速恢复和功率的精准分配要求。权利要求书2页说明书5页 CN 114498771 A 2022.05.13 CN 114498771 A 1.一种微电网频率恢复和功率分配控制方法，其特征在于，包括如下步骤： (1)当微电网频率发生偏差或功率分配不均衡时，引入下垂控制方法，进行功率补偿以恢复频率； (2)采用强化学习Q ‑learning方法，对微电网环境中目标进行自适应导向学习，生成一套最佳控制策略，实现微电网频率的快速恢复； (3)在强化学习基础上引入博弈论对控制策略进行优化，达到多智能体联合行为的纳什均衡，实现智能体之间功率分配的最优控制。 2.根据权利要求1所述的一种微电网频率恢复和功率分配控制方法，其特征在于，步骤 (1)所述的微电网频率发生偏差或功率分配不均衡时，引入下垂控制进行调节的方法为： (1‑1)当微电网频率发生偏差时，引入下垂控制进行调节；在孤岛微电网的前提下，对并联逆变器有功— 频率的下垂控制方程为： fi*‑fi＝mi(Pi‑Pi*) (1) 式中， fi为第i台逆变器的输出频率； fi*为第i台逆变器的额定频率； Pi为第i台逆变器的输出功率， Pi*为第i台逆变器的额定功率， mi为第i台逆变器的下垂系数；由(1)式可知，当频率发生偏差时，可进行功率补偿来消除频率偏差； (1‑2)当微电网功率分配不均衡时，由于逆变器并联，各逆变器的输出频率也相等，设定合适的下垂系数和额定功率，使各并联逆变器下垂系数与额定功率的乘积相等，在此基础上则有： m1P1＝m2P2＝...＝miPi＝C (2) 式中， Pi为第i台逆变器的输出功率， mi为第i台逆变器的下垂系数， C为常数；由(2)式可知，逆变器的输出功率与下垂系数成反比，因此可以通过调节下垂系数来实现输出功率按比例分配。 3.根据权利要求1所述的一种微电网频率恢复和功率分配控制方法，其特征在于，步骤 (2)所述的采用强化学习Q ‑learning方法，对微电网环境中目标进行自适应导向学习，生成一套最佳控制策略，实现微电网频率的快速恢复的方法为： (2‑1)采用动作值函数记录状态和动作，值函数Qπ(s,a)的计算方法为： Qπ(s,a)＝r(s,a)+γVπ(s',a') (3) 式中， Qπ(s,a)为策略π下s状态采取动作a获得奖励的期望值； r(s,a)是状态s下采取动作a获得的立即奖励； Vπ(st,at)为策略π 中下一状态s'对应的值函数； γ为衰减率，用于计算从状态s'到回合结束的累计奖励； (2‑2)在每次学习中更新值函数表格，通过迭代更新形成一套最优的控制策略，迭代原则如下： Q(st,at)＝Q(st,at)+α [r(st,at)+λ maxQ(st+1,at+1)‑Q(st,at)] (4) 式中， st， at分别表示第t次迭代状态和动作； Q(st,at)表示第t次迭代的价值； r(st,at) 表示状态st采取动作at的奖励； m axQ(st+1,at+1)表示st状态下采取动作at到达下一状态st+1, 所能选取的最大的Q值； α 为学习率， α 越小表示越重视以前的训练结果； λ为衰减率， λ越大表示越重视下一步的作用； (2‑3)采用贪婪策略选择动作，智能体在当前状态下将选择最高Q值的动作去执行，动作选择满足如下原则：权　利　要　求　书 1/2 页 2 CN 114498771 A 2式中，函数argmax(f(x))表示f(x)取得最大值所对应的变量x，无论智能体处于何种状态，最优动作策略都是依据学习好的g ×h阶Q矩阵根据当前状态选出Q值最大时对应的动作。 4.根据权利要求1所述的一种微电网频率恢复和功率分配控制方法，其特征在于，步骤 (3)所述的在强化学习基础上引入博弈论对控制策略进行优化，达到多智能体联合行为的纳什均衡，实现智能体之间功率分配的最优控制的方法为： (3‑1)使所有智能体都采用纳什均衡策略，智能体i的纳什Q函数定义为对于状态Si的联合行为，智能体i的当前回报和未来回报之和为：式中， (π1,..., πn)为联合策略， ri(s,a1,...,an)为智能体i在状态s执行联合行为 (a1,...,an)所获得的回报，为所有其他智能体执行纳什均衡策时在当时状态下的总折扣汇报； (3‑2)通过迭代更新获得回报最大的纳什均衡策略，纳什Q ‑learning学习算法的迭代更新满足： Qi(st,a1,...,an)＝(1‑α )Qi(st,a1,...,an)+α(ri+γNashQi(st+1)) (7) 式中， NashQi(st+1)是智能体i在新状态下的那什均衡点， ri是智能体i在状态st和联合行为(a1,a2,...,an)下的立即奖励， α 为学习率， γ为衰减率； (3‑3)每次选择动作和求解纳什Q值采用的是Lemke ‑Howson算法，当频率偏差和功率分配满足要求时，迭代停止，生成最优的控制策略。权　利　要　求　书 2/2 页 3 CN 114498771 A 3

专利 一种微电网频率恢复和功率分配控制方法

专利一种微电网频率恢复和功率分配控制方法