专利一种基于多智能体深度强化学习的中央空调控制方法

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111609118.0 (22)申请日 2021.12.27 (71)申请人苏州科技大学地址 215000 江苏省苏州市高新区科锐路1 号申请人重庆工业大数据创新中心有限公司 (72)发明人陈建平　傅启明　陈曦尧　 (74)专利代理机构北京科家知识产权代理事务所(普通合伙) 11427 代理人宫建华 (51)Int.Cl. F24F 11/30(2018.01) F24F 11/56(2018.01) F24F 11/72(2018.01) F24F 11/85(2018.01)F24F 11/88(2018.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) F24F 110/10(2018.01) F24F 110/12(2018.01) (54)发明名称一种基于多智能体深度强化学习的中央空调控制方法 (57)摘要本发明公开了一种基于多智能体深度强化学习的中央空调控制方法，根据当前室内需求冷负荷和室外湿球温度对中央空调系统中冷机、冷却水泵和冷却水塔风扇的启停状态和工作参数进行无模型优化控制，包括冷机运行顺序控制，以及冷却水泵和冷却水塔风扇工作频率的智能体优化控制，本控制方法无需在实际部署过程中建立准确的中央空调系统模型，只需使用单个代理即可分别控制冷却水泵和冷却水塔风扇工作频率，能够依靠少量的历史数据，在短时间内训练出一个高效准确的控制策略，降低不必要的制冷量，减少冷机、冷却水泵和冷却水塔风扇的工作负荷，提高使用寿命并降低故障率，使整个中央空调系统能耗甚至建筑总能耗大大降低。权利要求书3页说明书6页附图3页 CN 114279042 A 2022.04.05 CN 114279042 A 1.一种基于多智能体深度强化学习的中央空调控制方法，其特征在于：根据当前室内需求冷负荷和室外湿球温度对中央空调系统中冷机、冷却水泵和冷却水塔风扇的启停状态和工作参数进行无模型优化控制，包括冷机运行顺序控制，以及冷却水泵和冷却水塔风扇工作频率的智能体优化控制。 2.根据权利要求1所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于：所述中央空调系统中冷机、冷却水泵和冷却水塔依次相连、成组设置，所述冷机顺序控制通过顺序控制器实现，所述冷却水泵和冷却水塔风扇工作频率的智能体优化控制分别通过一个强化学习控制器实现。 3.根据权利要求2所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于，包括步骤如下： A1.由电子温度计记录室外湿球温度； A2.通过能耗软件EnergyPlus模拟仿真求得当前室内需求冷负荷； A3.顺序控制器根据当前室内需求冷负荷确定冷机开启的台数； A4.强化学习控制器接收当前状态信息后，对所接收的数据信息建立环境模型，并根据环境模型提供最优策略。 4.根据权利要求3所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于：所述步骤A2中，用EnergyPlus对当前房间整体建模，输入当前室内干球温度、室外干球温度、室内湿球温度和室外湿球温度，其中CLs代表当前室内需求冷负荷， T代表当前室内干球温度、室外干球温度、室内湿球温度和室外湿球温度的集合， modelroom代表当前房间模型，输出CLs＝{T， modelroom}。 5.根据权利要求4所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于：所述步骤A3中，顺序控制器进行阈值计算和动作执行，其中thresholdn代表阈值， n (0， 1， 2， 3， …)代表冷机开启数量， refrigerating capacit代表单个冷机额定制冷量， thresholdn＝n×refrigerating capacity，顺序控制器实时计算CLs落入的thresholdn到 thresholdn+1的范围，始终维持n台冷机处于开启状态，当n＝0时，顺序控制器关闭所有冷机，仅靠冷水水泵和冷却水塔风扇工作来带走室内热量。 6.根据权利要求5所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于：所述步骤A4中，两个强化学习控制器分别作为控制冷却水泵和冷却水塔风扇工作频率的智能体，进行多智能体深度强化学习(MADRL)并构建神经网络，神经网络包括两个全连接层和回放记忆单元，输入层为当前室内需求冷负荷和室外湿球温度，将中间层与所有可能的动作进行全连接，输出层为当前室内需求冷负荷和室外湿球温度下所有动作的值估计，控制冷却水泵工作频率的智能体输出的动作是冷却水泵所有能达到的频率，控制冷却水塔风扇工作频率的智能体输出的动作是冷却水塔风扇所有能达到的频率，回放记忆单元用于记录所有样本(st， at， rt， st+1)，其中st表示当前室内需求冷负荷和室外湿球温度， at表示当前室内需求冷负荷和室外湿球温度状态下冷却水泵和冷却水塔风扇的工作频率， s，表示在st’状态下执行动作at后迁移到的下一个状态， rt表示在当前状态st’下执行动作at得到的立即回报。 7.根据权利要求6所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于，所述步骤A4中，两个强化学习控制器将冷却水泵和冷却水塔风扇工作频率的控制权　利　要　求　书 1/3 页 2 CN 114279042 A 2问题建模为两个马尔科夫决策过程(MDP)模型，并定义其中的状态、动作以及奖赏函数如下： B1.状态，用S表示，其中CLs代表当前室内需求冷负荷， Twet代表当前室外湿球温度，两个智能体的当前状态一致，用S来表示， S＝{CLs， Twet}； B2.动作，用a表示，其中fpump代表冷却水泵的频率， ftower代表冷却水塔风扇的频率， apump ＝fpump； atower＝ftower； B3.奖赏函数，用r表示，其中Pchiller代表冷机功耗， Ptower代表冷却水塔风扇功耗， Ppump代表冷却水泵功耗， 8.根据权利要求7所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于：所述步骤A4中，强化学习控制器建立值函数回报模型，设R(s， a)表示在状态s下采用动作a的回报值，值函数Q(s， a)是关于R(s， a)的期望，则Q(s， a)＝E[R(s， a)]。 9.根据权利要求8所述的一种基于多智能体深度强化学习的中央空调控制方法，其特征在于，所述步骤A4中，强化学习控制器通过深度Q学习(Deep Q Network或DQN)算法求解最优策略，算法训练流程如下： C1.初始化记忆回放单元，容量是N，用于储存训练的样本； C2.初始化当前值网络，随机初始化权重参数ω，初始化目标值网络，结构以及初始化权重与当前值网络相同； C3.将室内需求冷负荷和室外湿球温度通过当前值网络，得到任意状态s下的Q(s， a)，通过当前值网络计算出值函数后，使用∈ ‑greedy策略来选择动作a，每一次状态转移即做出动作记为一个时间步t，将每个时间步得到的数据(s， a， r， s ’)存入回放记忆单元； C4.定义一个loss function： L(ω)＝E[(r+γmaxa′Q(s′， a′； ω‑)‑Q(s， a； ω) )2]； C5.从回放记忆单元中随机抽取一个(s， a， r， s ’)，将(s， a， r， s ’)分别传给当前值网络，目标值网络和L(ω)，对L(ω)关于ω使用随机梯度下降法进行更新，其更新公式为： 10.根据权利要求9所述的一种基于多智能体深度强化字习的中央空调控制方法，其特征在于，包括整体算法训练流程如下： D1.在当前时间步t，根据实时冷负荷进行冷机启停控制； D2.观测环境状态st，记录实时冷负荷、室外湿球温度等数据； D3.无模型方法给定控制动作at，使用贪心策略选取当前Q 值最大的动作at； D4.系统执行控制动作，获得下一个环境状态st+1，计算当前动作下制冷性能系数，并将其作为强化学习算法中的奖赏值rt； D5.多智能体深度强化学习算法训练，执行参数更新，将样本(st， at， rt， st+1)存储至经验池，并从经验池中随机采样，执行算法训练更新网络参数；权　利　要　求　书 2/3 页 3 CN 114279042 A 3

专利 一种基于多智能体深度强化学习的中央空调控制方法

专利一种基于多智能体深度强化学习的中央空调控制方法