说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111609118.0 (22)申请日 2021.12.27 (71)申请人 苏州科技大 学 地址 215000 江苏省苏州市高新区科锐路1 号 申请人 重庆工业大 数据创新中心有限公司 (72)发明人 陈建平 傅启明 陈曦尧  (74)专利代理 机构 北京科家知识产权代理事务 所(普通合伙) 11427 代理人 宫建华 (51)Int.Cl. F24F 11/30(2018.01) F24F 11/56(2018.01) F24F 11/72(2018.01) F24F 11/85(2018.01)F24F 11/88(2018.01) G06F 30/27(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) F24F 110/10(2018.01) F24F 110/12(2018.01) (54)发明名称 一种基于多智能体深度强化学习的中央空 调控制方法 (57)摘要 本发明公开了一种基于多智能体深度强化 学习的中央空调控制方法, 根据当前室内需求冷 负荷和室外湿球温度对中央空调系统中冷机、 冷 却水泵和冷却水塔风扇的启停状态和工作参数 进行无模型优化控制, 包括冷机运行顺序控制, 以及冷却水泵和冷却水塔风扇工作频率的智能 体优化控制, 本控制方法无需在实际部署过程中 建立准确的中央空调系统模型, 只需使用单个代 理即可分别控制冷却水泵和冷却水塔风扇工作 频率, 能够依靠少量的历史数据, 在短时间内训 练出一个高效准确的控制策略, 降低不必要的制 冷量, 减少冷机、 冷却水泵和冷却水塔风扇的工 作负荷, 提高使用寿命并降低故障率, 使整个中 央空调系统能耗 甚至建筑总能耗大 大降低。 权利要求书3页 说明书6页 附图3页 CN 114279042 A 2022.04.05 CN 114279042 A 1.一种基于多智能体深度强化学习的中央空调控制方法, 其特征在于: 根据当前室内 需求冷负荷和室外湿球温度对中央空调系统中冷机、 冷却水泵和冷却水塔风扇的启停状态 和工作参数进行无模型优化控制, 包括冷机运行顺序控制, 以及冷却水泵和冷却水塔风扇 工作频率的智能体优化控制。 2.根据权利要求1所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于: 所述中央空调系统中冷机、 冷却水泵和冷却水塔依次相连、 成组设置, 所述冷机顺 序控制通过顺序控制器实现, 所述冷却水泵和冷却水塔风扇工作频率的智能体优化控制分 别通过一个强化学习控制器实现。 3.根据权利要求2所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于, 包括 步骤如下: A1.由电子温度计记录室外湿 球温度; A2.通过能耗软件EnergyPlus模拟仿真求得当前室内 需求冷负荷; A3.顺序控制器根据当前室内 需求冷负荷确定冷机开启的台数; A4.强化学习控制器接收当前状态信 息后, 对所接收的数据信息建立环境模型, 并根据 环境模型提供最优策略。 4.根据权利要求3所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于: 所述步骤A2中, 用EnergyPlus对当前房间整体建模, 输入当前室内干球温度、 室外 干球温度、 室内湿球温度和室外湿球温度, 其中CLs代表当前室内需求冷负荷, T代表当前室 内干球温度、 室外干球温度、 室内湿球温度和室外湿球温度的集合, modelroom代表当前房间 模型, 输出CLs={T, modelroom}。 5.根据权利要求4所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于: 所述步骤A3中, 顺序控制器进行阈值计算和动作执行, 其中thresholdn代表阈值, n (0, 1, 2, 3, …)代表冷机开启数量, refrigerating  capacit代表单个冷机额定制冷量, thresholdn=n×refrigerating capacity, 顺序控制器实时计算CLs落入的thresholdn到 thresholdn+1的范围, 始终维持n台冷机处于开启状态, 当n=0时, 顺序控制器关闭所有冷 机, 仅靠冷水 水泵和冷却水塔风扇工作来带 走室内热量。 6.根据权利要求5所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于: 所述步骤A4中, 两个强化学习控制器分别作为控制冷却水泵和冷却水塔风扇工作 频率的智能体, 进 行多智能体深度强化学习(MADRL)并构建神经网络, 神经网络包括两个全 连接层和回放记忆单元, 输入层为当前室内需求冷负荷和室外湿球温度, 将中间层与所有 可能的动作进 行全连接, 输出层为当前室内需求冷负荷和室外湿球 温度下所有动作的值估 计, 控制冷却水泵工作频率的智能体输出 的动作是冷却水泵所有能达到的频率, 控制冷却 水塔风扇工作频率的智能体输出的动作是冷却水塔风扇所有能达到的频率, 回放记忆单元 用于记录所有样本(st, at, rt, st+1), 其中st表示当前室内需求冷负荷和室外湿球温度, at表 示当前室内需求冷负荷和室外湿球温度状态下冷却水泵和冷却水塔风扇的工作频率, s, 表 示在st’状态下执行动作at后迁移到的下一个状态, rt表示在当前状态st’下执行动作at得到 的立即回报。 7.根据权利要求6所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于, 所述步骤A4中, 两个强化学习控制器将冷却水泵和冷却水塔风扇工作频率的控制权 利 要 求 书 1/3 页 2 CN 114279042 A 2问题建模为两个马尔科夫决策过程(MDP)模型, 并定义其中的状态、 动作以及奖赏函数如 下: B1.状态, 用S表示, 其中CLs代表当前室内需求 冷负荷, Twet代表当前室外湿球温度, 两个 智能体的当前状态一 致, 用S来表示, S={CLs, Twet}; B2.动作, 用a表示, 其中fpump代表冷却水泵的频率, ftower代表冷却水塔风扇的频率, apump =fpump; atower=ftower; B3.奖赏函数, 用r表示, 其中Pchiller代表冷机功耗, Ptower代表冷却水塔风扇功耗, Ppump代 表冷却水泵功耗, 8.根据权利要求7所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于: 所述步骤A4中, 强化学习控制器建立值函数回报模型, 设R(s, a)表示在状态s下采 用动作a的回报值, 值 函数Q(s, a)是关于R(s, a)的期望, 则Q(s, a)=E[R(s, a)]。 9.根据权利要求8所述的一种基于多智能体深度强化学习的中央空调控制方法, 其特 征在于, 所述步骤A4中, 强化学习控制器通过深度Q学习(Deep  Q Network或DQN)算法求解 最优策略, 算法训练流 程如下: C1.初始化记 忆回放单 元, 容量是N, 用于储 存训练的样本; C2.初始化当前值网络, 随机初始化权重参数ω, 初始化目标值网络, 结构以及初始化 权重与当前值网络相同; C3.将室内需求冷负荷和 室外湿球温度通过当前值网络, 得到任意状态s下的Q(s, a), 通过当前值网络计算出值函数后, 使用∈ ‑greedy策 略来选择动作a, 每一次状态转移即做 出动作记为 一个时间步t, 将每 个时间步得到的数据(s, a, r, s ’)存入回放记 忆单元; C4.定义一个loss function: L(ω)=E[(r+γmaxa′Q(s′, a′; ω‑)‑Q(s, a; ω) )2]; C5.从回放记忆单元中随机抽取一个(s, a, r, s ’), 将(s, a, r, s ’)分别传给当前值 网络, 目标值网络和L(ω), 对L(ω)关于ω使用随机梯度下降法进行更新, 其更新公式为: 10.根据权利要求9所述的一种基于多智能体深度强化字习的中央空调 控制方法, 其特 征在于, 包括整体算法训练流 程如下: D1.在当前时间步t, 根据实时冷负荷进行冷机启停控制; D2.观测环境状态st, 记录实时冷负荷、 室外湿 球温度等数据; D3.无模型 方法给定控制动作at, 使用贪心策略选取当前Q 值最大的动作at; D4.系统执行控制动作, 获得下一个环境状态st+1, 计算当前动作下制冷性能系数, 并将 其作为强化学习算法中的奖赏 值rt; D5.多智能体深度强化学习算法训练, 执行参数更新, 将样本(st, at, rt, st+1)存储至经 验池, 并从经验 池中随机采样, 执 行算法训练更新网络参数;权 利 要 求 书 2/3 页 3 CN 114279042 A 3

.PDF文档 专利 一种基于多智能体深度强化学习的中央空调控制方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于多智能体深度强化学习的中央空调控制方法 第 1 页 专利 一种基于多智能体深度强化学习的中央空调控制方法 第 2 页 专利 一种基于多智能体深度强化学习的中央空调控制方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 05:18:24上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。