说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111550134.7 (22)申请日 2021.12.17 (71)申请人 华东理工大 学 地址 200237 上海市徐汇区梅陇路13 0号 申请人 上海燃气有限公司 (72)发明人 唐枫 冯翔 李念文 张健  李正龑 邬真侃  (51)Int.Cl. G06Q 10/06(2012.01) G06Q 10/04(2012.01) G06Q 10/00(2012.01) G06Q 50/26(2012.01) (54)发明名称 一种用于城市能源应急站点新增的强化多 目标烟花 算法 (57)摘要 本发明公开了一种用于城市能源应急站点 新增位置确立的强化多目标烟花算法, 该方法首 先根据实际需求定义问题表示, 以便协调提升到 场及时率和减少未覆盖区域这两个目标。 接着采 用强化学习中Qlearning方法为多目标烟花自适 应地选择下一步搜索策略, 其中Q表的状态根据 个体支配程度排名量化, 行为分为爆炸、 变异和 交叉这三类行为。 采用快速非支 配排序作为多目 标评价方法, 加速收敛的同时得到均匀分布的最 优解集。 最后迭代至最大迭代次数, 并将新增站 点的位置、 提升后的到场及时率与减少后的未覆 盖区域输出。 权利要求书4页 说明书7页 附图4页 CN 114219314 A 2022.03.22 CN 114219314 A 1.所述一种用于城市能源应急站点新增的强化多目标烟花算法, 其特征在于, 为了快 速得到一组收敛且分布均匀的最优解集, 该方法通过强化学习来为动态多目标烟花算法自 适应地调整参数, 其进化优化的步骤如下: 步骤1: (种群初始化) 为了更全面地搜索可行域, 结合均匀与随机两种思想, 得到均匀 分布的初始种群; 决策空间被分成N个相等的子空间, 子空间的数量取决于种群的大小; 所述公式为每个子空间差距 的计算方法, 其中u为决策变量的上界, l为决策变量的下 界, N为种群大小 (种群中个 体数量) ; 于是每 个子空间表示 为: 所述公式为各子空间的计算方法, 分别用区间来表示; 步骤2: (强化学习Q表初始化) 强化学习通过不断的试错来学习策略, 该策略可以根据 当前状态与历史反馈来决定下一步的行为, 其主要组成部分包括环境、 状态、 行为和奖励, 其示意图如附图2所示; 本算法采用常见的无模型强化学习算法Qlearning, 它基于即时奖 励和当前Q 值函数逐步估计某状态采取某行为的价 值; Qlearning算法的关键步骤如下: 1) 首先初始化 Q表; 2) 随机选择一个初始状态St; 3) 当循环条件未终止时: 从Q表中为当前状态St选择一个最 好的行为A t, 执行行为At并得到即时的反馈R; 为下一个 状态获取最大的Q 值; 更新Q表; 更新当前状态; 所述Q表的更新方法如下: 所述公式为Q表的更新方法, 其中St为当前的状态, At为要执行的行为, R是执行该行为 后获得的奖励, β 为0 ‑1之间的时间因子, β 为0时只考虑当前奖励, 为1时寻找大的长期的回 报, α 为0‑1之间的学习率, Qt+1为该时刻获得的总 累计奖励; 所述算法中当该产生的子代比父代优秀时, 意味着该行为成功, 其奖励值为1, 否则为 0; 对于每个个体, 其采取A行为的概 率公式如下: 所述公式为在状态S下采取A行为的概率计算方法, 其中Qt (Si,Aj) 为Q表中该时刻的权 利 要 求 书 1/4 页 2 CN 114219314 A 2值, T是控制参数, Q表的设计如下: 所述表中S为该算法收敛度和多样性的综合衡量, A为烟花算法的爆炸、 交叉、 变异行 为; 步骤3: (多目标评价) 为综合评价种群个体的收敛度与多样性, 引入非支配排序与拥挤 度计算方法, 非支配排序方法根据个体间的支配关系, 按照支配度由高到底将个体放入不 同的Pareto前沿, 拥挤度计算方法对同一层的不同个体按照每个目标函数上的结果值高低 顺序排序, 综合二者的快速非支配排序方法结合了支配关系与拥挤程度, 其快速支配方法 如下: 所述为个体间支配的方法, pran k为个体p的支配度排名, pdis为个 体p的拥挤度; 所述为拥挤度计算方法, fj (X[i]) 为个体i的解在第j个目标函数上的适应值, min和 max表示对fj函数适应值分别 取最大和最小值, np为第p层前沿上的解的数量, 按照适应度 排序后, 其第一个和 最后一个个体的拥挤度设为无穷大, 中间的个体按照前后两个个体间 的距离与总体距离之比来设置; 步骤4: (个体参数更新) 烟花算法启发于烟花爆炸产生火花的现象, 不同烟花的爆炸半 径及其产生的火花数量不同, 适应度高的个体在较小的半径内产生较多的子代个体, 适应 度差的个 体则在较大的区域内产生较少的子代, 计算方法如下: 所述为第t代的基准半径, tmax为最大迭代次数, t为当前迭代代数, rinit和rend分别 为第一代和最后一代的基准半径;权 利 要 求 书 2/4 页 3 CN 114219314 A 3

.PDF文档 专利 一种用于城市能源应急站点新增的强化多目标烟花算法

文档预览
中文文档 16 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种用于城市能源应急站点新增的强化多目标烟花算法 第 1 页 专利 一种用于城市能源应急站点新增的强化多目标烟花算法 第 2 页 专利 一种用于城市能源应急站点新增的强化多目标烟花算法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:08:59上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。