说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110304840.7 (22)申请日 2021.03.15 (65)同一申请的已公布的文献号 申请公布号 CN 112966445 A (43)申请公布日 2021.06.15 (73)专利权人 河海大学 地址 211100 江苏省南京市江宁区佛城西 路8号 (72)发明人 胡鹤轩 尹苏明 胡强 朱跃龙  胡震云 张晔  (74)专利代理 机构 南京经纬专利商标代理有限 公司 32200 专利代理师 楼然 (51)Int.Cl. G06F 30/27(2020.01)G06N 20/00(2019.01) G06N 3/08(2006.01) G06F 17/15(2006.01) G06F 119/02(2020.01) (56)对比文件 CN 110930016 A,2020.0 3.27 CN 108564213 A,2018.09.21 CN 108710972 A,2018.10.26 CN 112149984 A,2020.12.2 9 审查员 赵玉航 (54)发明名称 一种基于强化学习模型FQI的水库防洪优化 调度方法 (57)摘要 本发明公开了一种基于强化学习模 型FQI的 水库防洪优化调度方法, 包括: 获取水库历史调 度数据作为强化学习基本数据集, 并通过随机模 拟的方法充分扩展数据集。 比较FQI迭代算法中 使用的不同特点的函数逼近器, 选择实际效果较 好的模型作为FQI强化学习的水库防洪优化调度 模型。 本发 明考虑入库流量预报随时间增加准确 度下降的特性, 选取调度时段内水库水位安全和 下游防洪控制点水位安全作为优化目标, 生成水 库防洪优化调度方案, 在保证高质量解的前提 下, 解决传统水库防洪优化调度算法计算复杂 度 高、 收敛慢的问题。 权利要求书2页 说明书7页 附图3页 CN 112966445 B 2022.10.14 CN 112966445 B 1.一种基于强化学习模型 FQI的水库防洪优化调度方法, 其特 征在于, 包括: 步骤1、 建立水库防洪优化调度模型及确定模型的约束条件; 步骤2、 构建强化学习样本数据集; 步骤3、 选 定函数逼近器; 步骤4、 将强化学习方法FQI运用到水库防洪优化调度模型中: 步骤2和步骤3中获得的 强化学习数据集和函数逼近器, 应用到强化学习FQ I模型迭代算法中; 所述的建立水库防洪优化调度模型及确定模型的约束条件的过程包括: 设时段数为T的水库防洪调度中, 设单时段 奖励函数Rt(st, ut, xt); Rt+1(st+1, ut)=c1(z0‑z(st+1))+c2(l0‑f(ut, xt)), t=1, 2, …, T 其中, st+1为水库的在t+1时刻的蓄水, ut为水库在t时刻的释 放量; z0为水库防洪水位阈 值即防洪限制水位, z(st+1)为水库库容与水位映射函数, 由库容水位曲线得出; l0为下游防 洪控制点警戒水位, xt为下游防洪控制点区间流量, f(ut, xt)为下游防洪控制点水位与水库 释放量和区间洪水流 量映射函数, c1和c2为大于0的常数; 将水库释放策 略p定义为序列p={m(s1), m(s2), ..., m(sT)}={u1, u2, ..., uT}; 使用折 扣因子0<γ<1逐时段自乘使 奖励函数值在后 期权重呈递减趋势, 以此来体现入库径流预 报随时间增加准确度下降的特性即时效性, 则最 终的水库防洪优化调 度模型即水库优化调 度目标确定为如下计算公式: 水库防洪优化调度模型约束条件: 1‑1.水量平衡约束: st+1=st+at+1‑ut+1, at+1为t+1时刻入库流 量预报值; 1‑2.下泄流量约束: umin≤ut+1≤umax, umin为t+1时刻释放水量最小值, umax为t+1时刻释 放水量最大值; 1‑3.库容约束: smin≤st≤smax, smin为t时刻库容 最小值, smax为t时刻库容 最大值; 1‑4.边界条件约束: s0, s0为水库初始时刻蓄水量。 2.根据权利要求1所述一种基于强化学习模型FQI的水库防洪优化调度 方法, 其特征在 于: 所述步骤2中建立强化学习样本数据集的过程包括: 利用FQI算 法通过学习经验对水库防洪优化调度模型进行优 化; 此学习经验表示为<st, ut, st+1, Rt+1>四元组形式的有限数据集 其中 是 数据集 的基数; 数据集中每个样本是在t 时刻水库状态st采取决策释放量ut后转移到t+1 时刻所在状态st+1及获得的阶段 奖励值Rt+1; 此种形式的样本数据集 通过两种方式获取: 2‑1.从实际水库调度管理, 即水库历史记录中获取水库各时刻的入库流量和释放水 量; 2‑2.通过模型模拟的蒙特卡洛随机模拟法, 探索水库在不同状态和不同运行策略下获 取的防洪效果; 在真正生成强化学习训练数据集 时, 需要将所述的水库防洪优化调度模型转换成递推 模式, 即构建贝尔曼 方程: 权 利 要 求 书 1/2 页 2 CN 112966445 B 2则最优释放策略计算公式为: 式中, Qt(·,·)又称为Q函数或值函数; 分别是将水库状态变量和水库释放量离 散化; 强化学习数据集是在FQI算法迭代过程中使用上述的有限数据集 建立的, 其中h为 算法迭代次数, 初始值 为0; 强化学习训练数据集输出值计算方式如下: 由此, 即可将构建强化学习数据集转变成: 其 中 为样本的特 征输入, 为样本的值输出。 3.根据权利要求1所述一种基于强化学习模型FQI的水库防洪优化调度 方法, 其特征在 于: 所述步骤3中选 定函数逼近器的过程包括: 将FQI迭代算法与任何基于最小二乘法的函数逼近器相结合; 选用深度神经网络 ‑参数 学习和极限随机森林 ‑无参数学习的两种机器学习方法进行比较, 选择防洪效果较好即p值 较大的算法投入使用。 4.根据权利要求2所述一种基于强化学习模型FQI的水库防洪优化调度 方法, 其特征在 于: 在步骤4中所述的强化学习FQ I模型迭代算法包括: 输入: 强化学习数据集 和函数逼近器算法 初始化 过程: for h=0, H do h=h+1 创建强化学习训练数据集 其中 在数据集 使用输入的函数逼近器算法进行函数逼近 更新函数逼近器并求 解 值 end for 输出: 策略 生成 其中, h为 算法迭代次数, 该算法的策略为: 通过将优化模型中的Qh(·)替换为 在此循环算法中不断地得 到 从而模型不断地往最优的方向优化, 利用该生成的策略进行生成最 终的防洪调度方案 。权 利 要 求 书 2/2 页 3 CN 112966445 B 3

.PDF文档 专利 一种基于强化学习模型FQI的水库防洪优化调度方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于强化学习模型FQI的水库防洪优化调度方法 第 1 页 专利 一种基于强化学习模型FQI的水库防洪优化调度方法 第 2 页 专利 一种基于强化学习模型FQI的水库防洪优化调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:20:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。