(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111639689.9
(22)申请日 2021.12.2 9
(71)申请人 南昌大学
地址 330031 江西省南昌市红谷滩区学府
大道999号
(72)发明人 万晓凤 肖磊 戴钟书 丁小华
(51)Int.Cl.
H02J 3/48(2006.01)
H02J 3/06(2006.01)
H02J 3/24(2006.01)
H02J 3/26(2006.01)
G06N 20/00(2019.01)
(54)发明名称
一种微电网频率恢复和功率分配控制方法
(57)摘要
一种微电网频率恢复和功 率分配控制方法,
包括以下步骤: 将博弈论与强化学习相结合得到
Nash Q强化学习控制方法, 当系统检测到微电网
频率发生偏 差时, 引入下垂控制进行功率补偿以
恢复频率, 将各分布式电源看成系统中的智能
体, 利用Nash Q强化学习将微电网频率恢复和功
率分配作为学习目标, 根据下垂控制中各分布式
电源频率偏差定义奖惩, 通过 获取对手智能体的
信息进行矩阵博弈, 寻找功率分配的纳什均衡
解。 本发明实现了微电网频率的快速恢复和功率
的精准分配要求。
权利要求书2页 说明书5页
CN 114498771 A
2022.05.13
CN 114498771 A
1.一种微电网频率恢复和功率分配控制方法, 其特 征在于, 包括如下步骤:
(1)当微电网频率发生偏差或功率分配不均衡时, 引入下垂控制方法, 进行功率补偿以
恢复频率;
(2)采用强化学习Q ‑learning方法, 对微电网环境中目标进行自适应导向学习, 生成一
套最佳控制策略, 实现微电网频率的快速恢复;
(3)在强化学习基础上引入博弈论对控制策略进行优化, 达到多智能体联合行为的纳
什均衡, 实现智能体之间功率分配的最优 控制。
2.根据权利要求1所述的一种微电网频率恢 复和功率分配控制方法, 其特征在于, 步骤
(1)所述的微电网频率发生偏差或功率分配不均衡时, 引入下垂控制进行调节的方法为:
(1‑1)当微电网频率发生偏差时, 引 入下垂控制进行调节; 在孤岛微电网的前提下, 对
并联逆变 器有功— 频率的下垂控制方程 为:
fi*‑fi=mi(Pi‑Pi*) (1)
式中, fi为第i台逆变器的输出频率; fi*为第i台逆变器的额定 频率; Pi为第i台逆变器的
输出功率, Pi*为第i台逆变器的额定功率, mi为第i台逆变器的下垂系数; 由(1)式可知, 当频
率发生偏差时, 可进行功率补偿来消除频率偏差;
(1‑2)当微电网功率分配不均衡时, 由于逆变器并联, 各逆变器的输出频率也相等, 设
定合适的下垂系数和 额定功率, 使各并联逆变器下垂系 数与额定功率的乘积相等, 在此基
础上则有:
m1P1=m2P2=...=miPi=C (2)
式中, Pi为第i台逆变器的输出功率, mi为第i台逆变器的下垂系数, C为常数; 由(2)式可
知, 逆变器的输出功率与下垂系 数成反比, 因此可以通过调节下垂系 数来实现输出功率按
比例分配。
3.根据权利要求1所述的一种微电网频率恢 复和功率分配控制方法, 其特征在于, 步骤
(2)所述的采用强化学习Q ‑learning方法, 对微电网环境中目标进行自适应导向学习, 生 成
一套最佳控制策略, 实现微电网频率的快速恢复的方法为:
(2‑1)采用动作值 函数记录状态和动作, 值 函数Qπ(s,a)的计算方法为:
Qπ(s,a)=r(s,a)+γVπ(s',a') (3)
式中, Qπ(s,a)为策略π下s状态采取动作a获得奖励的期望值; r(s,a)是状态s下采取动
作a获得的立即奖励; Vπ(st,at)为策略π 中下一状态s'对应的值函数; γ为衰减率, 用于计算
从状态s'到回合结束的累计奖励;
(2‑2)在每次学习中更新值函数表格, 通过迭代更新形成一套最优的控制策略, 迭代原
则如下:
Q(st,at)=Q(st,at)+α [r(st,at)+λ maxQ(st+1,at+1)‑Q(st,at)] (4)
式中, st, at分别表示第t次迭代状态和动作; Q(st,at)表示第t次迭代的价值; r(st,at)
表示状态st采取动作at的奖励; m axQ(st+1,at+1)表示st状态下采取动作at到达下一状态st+1,
所能选取的最大的Q值; α 为学习率, α 越小表 示越重视以前的训练结果; λ为衰减率, λ越 大表
示越重视下一步的作用;
(2‑3)采用贪婪策略选择动作, 智能体在当前状态下将选择最高Q值的动作去执行, 动
作选择满足如下原则:权 利 要 求 书 1/2 页
2
CN 114498771 A
2式中, 函数argmax(f(x))表示f(x)取得最大值所对应的变量x, 无论智能体处于何种状
态, 最优动作策略都是依据学习好的g ×h阶Q矩阵根据当前状态选出Q值最大时对应的动
作。
4.根据权利要求1所述的一种微电网频率恢 复和功率分配控制方法, 其特征在于, 步骤
(3)所述的在强化学习基础上引入博弈论对控制策略进行优化, 达到多智能体联合行为的
纳什均衡, 实现智能体之间功率分配的最优 控制的方法为:
(3‑1)使所有智能体都采用纳什均衡策略, 智能体i的纳什Q函数定义为对于状态Si的
联合行为, 智能体i的当前回报和未来回报之和为:
式中, (π1,..., πn)为联合策略, ri(s,a1,...,an)为智能体i在状态s执行联合行为
(a1,...,an)所获得的回报,
为所有其他智能体执行纳什均衡策
时在当时状态下的总折扣汇报;
(3‑2)通过迭代更新获得回报最大的纳什均衡策略, 纳什Q ‑learning学习算法的迭代
更新满足:
Qi(st,a1,...,an)=(1‑α )Qi(st,a1,...,an)+α(ri+γNashQi(st+1)) (7)
式中, NashQi(st+1)是智能体i在新状态下的那什均衡点, ri是智能体i在状态st和联合
行为(a1,a2,...,an)下的立即奖励, α 为学习率, γ为衰减率;
(3‑3)每次选择动作和求解纳什Q值采用的是Lemke ‑Howson算法, 当频率偏差和功率分
配满足要求时, 迭代 停止, 生成最优的控制策略。权 利 要 求 书 2/2 页
3
CN 114498771 A
3
专利 一种微电网频率恢复和功率分配控制方法
文档预览
中文文档
8 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共8页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:28:47上传分享