专利一种基于强化学习模型FQI的水库防洪优化调度方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110304840.7 (22)申请日 2021.03.15 (65)同一申请的已公布的文献号申请公布号 CN 112966445 A (43)申请公布日 2021.06.15 (73)专利权人河海大学地址 211100 江苏省南京市江宁区佛城西路8号 (72)发明人胡鹤轩　尹苏明　胡强　朱跃龙　胡震云　张晔　 (74)专利代理机构南京经纬专利商标代理有限公司 32200 专利代理师楼然 (51)Int.Cl. G06F 30/27(2020.01)G06N 20/00(2019.01) G06N 3/08(2006.01) G06F 17/15(2006.01) G06F 119/02(2020.01) (56)对比文件 CN 110930016 A,2020.0 3.27 CN 108564213 A,2018.09.21 CN 108710972 A,2018.10.26 CN 112149984 A,2020.12.2 9 审查员赵玉航 (54)发明名称一种基于强化学习模型FQI的水库防洪优化调度方法 (57)摘要本发明公开了一种基于强化学习模型FQI的水库防洪优化调度方法，包括：获取水库历史调度数据作为强化学习基本数据集，并通过随机模拟的方法充分扩展数据集。比较FQI迭代算法中使用的不同特点的函数逼近器，选择实际效果较好的模型作为FQI强化学习的水库防洪优化调度模型。本发明考虑入库流量预报随时间增加准确度下降的特性，选取调度时段内水库水位安全和下游防洪控制点水位安全作为优化目标，生成水库防洪优化调度方案，在保证高质量解的前提下，解决传统水库防洪优化调度算法计算复杂度高、收敛慢的问题。权利要求书2页说明书7页附图3页 CN 112966445 B 2022.10.14 CN 112966445 B 1.一种基于强化学习模型 FQI的水库防洪优化调度方法，其特征在于，包括：步骤1、建立水库防洪优化调度模型及确定模型的约束条件；步骤2、构建强化学习样本数据集；步骤3、选定函数逼近器；步骤4、将强化学习方法FQI运用到水库防洪优化调度模型中：步骤2和步骤3中获得的强化学习数据集和函数逼近器，应用到强化学习FQ I模型迭代算法中；所述的建立水库防洪优化调度模型及确定模型的约束条件的过程包括：设时段数为T的水库防洪调度中，设单时段奖励函数Rt(st， ut， xt)； Rt+1(st+1， ut)＝c1(z0‑z(st+1))+c2(l0‑f(ut， xt))， t＝1， 2， …， T 其中， st+1为水库的在t+1时刻的蓄水， ut为水库在t时刻的释放量； z0为水库防洪水位阈值即防洪限制水位， z(st+1)为水库库容与水位映射函数，由库容水位曲线得出； l0为下游防洪控制点警戒水位， xt为下游防洪控制点区间流量， f(ut， xt)为下游防洪控制点水位与水库释放量和区间洪水流量映射函数， c1和c2为大于0的常数；将水库释放策略p定义为序列p＝{m(s1)， m(s2)， ...， m(sT)}＝{u1， u2， ...， uT}；使用折扣因子0＜γ＜1逐时段自乘使奖励函数值在后期权重呈递减趋势，以此来体现入库径流预报随时间增加准确度下降的特性即时效性，则最终的水库防洪优化调度模型即水库优化调度目标确定为如下计算公式：水库防洪优化调度模型约束条件： 1‑1.水量平衡约束： st+1＝st+at+1‑ut+1， at+1为t+1时刻入库流量预报值； 1‑2.下泄流量约束： umin≤ut+1≤umax， umin为t+1时刻释放水量最小值， umax为t+1时刻释放水量最大值； 1‑3.库容约束： smin≤st≤smax， smin为t时刻库容最小值， smax为t时刻库容最大值； 1‑4.边界条件约束： s0， s0为水库初始时刻蓄水量。 2.根据权利要求1所述一种基于强化学习模型FQI的水库防洪优化调度方法，其特征在于：所述步骤2中建立强化学习样本数据集的过程包括：利用FQI算法通过学习经验对水库防洪优化调度模型进行优化；此学习经验表示为<st， ut， st+1， Rt+1>四元组形式的有限数据集其中是数据集的基数；数据集中每个样本是在t 时刻水库状态st采取决策释放量ut后转移到t+1 时刻所在状态st+1及获得的阶段奖励值Rt+1；此种形式的样本数据集通过两种方式获取： 2‑1.从实际水库调度管理，即水库历史记录中获取水库各时刻的入库流量和释放水量； 2‑2.通过模型模拟的蒙特卡洛随机模拟法，探索水库在不同状态和不同运行策略下获取的防洪效果；在真正生成强化学习训练数据集时，需要将所述的水库防洪优化调度模型转换成递推模式，即构建贝尔曼方程：权　利　要　求　书 1/2 页 2 CN 112966445 B 2则最优释放策略计算公式为：式中， Qt(·，·)又称为Q函数或值函数；分别是将水库状态变量和水库释放量离散化；强化学习数据集是在FQI算法迭代过程中使用上述的有限数据集建立的，其中h为算法迭代次数，初始值为0；强化学习训练数据集输出值计算方式如下：由此，即可将构建强化学习数据集转变成：其中为样本的特征输入，为样本的值输出。 3.根据权利要求1所述一种基于强化学习模型FQI的水库防洪优化调度方法，其特征在于：所述步骤3中选定函数逼近器的过程包括：将FQI迭代算法与任何基于最小二乘法的函数逼近器相结合；选用深度神经网络 ‑参数学习和极限随机森林 ‑无参数学习的两种机器学习方法进行比较，选择防洪效果较好即p值较大的算法投入使用。 4.根据权利要求2所述一种基于强化学习模型FQI的水库防洪优化调度方法，其特征在于：在步骤4中所述的强化学习FQ I模型迭代算法包括：输入：强化学习数据集和函数逼近器算法初始化过程： for h＝0， H do h＝h+1 创建强化学习训练数据集其中在数据集使用输入的函数逼近器算法进行函数逼近更新函数逼近器并求解值 end for 输出：策略生成其中， h为算法迭代次数，该算法的策略为：通过将优化模型中的Qh(·)替换为在此循环算法中不断地得到从而模型不断地往最优的方向优化，利用该生成的策略进行生成最终的防洪调度方案。权　利　要　求　书 2/2 页 3 CN 112966445 B 3

专利 一种基于强化学习模型FQI的水库防洪优化调度方法

专利一种基于强化学习模型FQI的水库防洪优化调度方法