专利一种用于城市能源应急站点新增的强化多目标烟花算法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111550134.7 (22)申请日 2021.12.17 (71)申请人华东理工大学地址 200237 上海市徐汇区梅陇路13 0号申请人上海燃气有限公司 (72)发明人唐枫　冯翔　李念文　张健　李正龑　邬真侃　 (51)Int.Cl. G06Q 10/06(2012.01) G06Q 10/04(2012.01) G06Q 10/00(2012.01) G06Q 50/26(2012.01) (54)发明名称一种用于城市能源应急站点新增的强化多目标烟花算法 (57)摘要本发明公开了一种用于城市能源应急站点新增位置确立的强化多目标烟花算法，该方法首先根据实际需求定义问题表示，以便协调提升到场及时率和减少未覆盖区域这两个目标。接着采用强化学习中Qlearning方法为多目标烟花自适应地选择下一步搜索策略，其中Q表的状态根据个体支配程度排名量化，行为分为爆炸、变异和交叉这三类行为。采用快速非支配排序作为多目标评价方法，加速收敛的同时得到均匀分布的最优解集。最后迭代至最大迭代次数，并将新增站点的位置、提升后的到场及时率与减少后的未覆盖区域输出。权利要求书4页说明书7页附图4页 CN 114219314 A 2022.03.22 CN 114219314 A 1.所述一种用于城市能源应急站点新增的强化多目标烟花算法，其特征在于，为了快速得到一组收敛且分布均匀的最优解集，该方法通过强化学习来为动态多目标烟花算法自适应地调整参数，其进化优化的步骤如下：步骤1：（种群初始化）为了更全面地搜索可行域，结合均匀与随机两种思想，得到均匀分布的初始种群；决策空间被分成N个相等的子空间，子空间的数量取决于种群的大小；所述公式为每个子空间差距的计算方法，其中u为决策变量的上界， l为决策变量的下界， N为种群大小（种群中个体数量）；于是每个子空间表示为：所述公式为各子空间的计算方法，分别用区间来表示；步骤2：（强化学习Q表初始化）强化学习通过不断的试错来学习策略，该策略可以根据当前状态与历史反馈来决定下一步的行为，其主要组成部分包括环境、状态、行为和奖励，其示意图如附图2所示；本算法采用常见的无模型强化学习算法Qlearning，它基于即时奖励和当前Q 值函数逐步估计某状态采取某行为的价值； Qlearning算法的关键步骤如下： 1）首先初始化 Q表； 2）随机选择一个初始状态St； 3）当循环条件未终止时：从Q表中为当前状态St选择一个最好的行为A t，执行行为At并得到即时的反馈R；为下一个状态获取最大的Q 值；更新Q表；更新当前状态；所述Q表的更新方法如下：所述公式为Q表的更新方法，其中St为当前的状态， At为要执行的行为， R是执行该行为后获得的奖励， β 为0 ‑1之间的时间因子， β 为0时只考虑当前奖励，为1时寻找大的长期的回报， α 为0‑1之间的学习率， Qt+1为该时刻获得的总累计奖励；所述算法中当该产生的子代比父代优秀时，意味着该行为成功，其奖励值为1，否则为 0；对于每个个体，其采取A行为的概率公式如下：所述公式为在状态S下采取A行为的概率计算方法，其中Qt （Si,Aj）为Q表中该时刻的权　利　要　求　书 1/4 页 2 CN 114219314 A 2值， T是控制参数， Q表的设计如下：所述表中S为该算法收敛度和多样性的综合衡量， A为烟花算法的爆炸、交叉、变异行为；步骤3：（多目标评价）为综合评价种群个体的收敛度与多样性，引入非支配排序与拥挤度计算方法，非支配排序方法根据个体间的支配关系，按照支配度由高到底将个体放入不同的Pareto前沿，拥挤度计算方法对同一层的不同个体按照每个目标函数上的结果值高低顺序排序，综合二者的快速非支配排序方法结合了支配关系与拥挤程度，其快速支配方法如下：所述为个体间支配的方法， pran k为个体p的支配度排名， pdis为个体p的拥挤度；所述为拥挤度计算方法， fj （X[i]）为个体i的解在第j个目标函数上的适应值， min和 max表示对fj函数适应值分别取最大和最小值， np为第p层前沿上的解的数量，按照适应度排序后，其第一个和最后一个个体的拥挤度设为无穷大，中间的个体按照前后两个个体间的距离与总体距离之比来设置；步骤4：（个体参数更新）烟花算法启发于烟花爆炸产生火花的现象，不同烟花的爆炸半径及其产生的火花数量不同，适应度高的个体在较小的半径内产生较多的子代个体，适应度差的个体则在较大的区域内产生较少的子代，计算方法如下：所述为第t代的基准半径， tmax为最大迭代次数， t为当前迭代代数， rinit和rend分别为第一代和最后一代的基准半径；权　利　要　求　书 2/4 页 3 CN 114219314 A 3

专利 一种用于城市能源应急站点新增的强化多目标烟花算法

专利一种用于城市能源应急站点新增的强化多目标烟花算法