专利一种基于区块链和强化学习的空调控制方法及其系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211276401.0 (22)申请日 2022.10.19 (65)同一申请的已公布的文献号申请公布号 CN 115355604 A (43)申请公布日 2022.11.18 (73)专利权人北京理工大学地址 100081 北京市海淀区中关村南大街5 号 (72)发明人祁红波　赵丰年　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师杨振鹏 (51)Int.Cl. F24F 11/64(2018.01) F24F 11/47(2018.01)H04L 67/10(2022.01) H04L 67/12(2022.01) G06F 9/48(2006.01) G06N 20/00(2019.01) (56)对比文件 CN 115082845 A,202 2.09.20 CN 10196 3969 A,201 1.02.02 CN 110213796 A,2019.09.0 6 US 2014278718 A1,2014.09.18 CN 114375066 A,2022.04.19 US 2022026864 A1,202 2.01.27 审查员孙莹 (54)发明名称一种基于区块链和强化学习的空调控制方法及其系统 (57)摘要本发明提供一种基于区块链和强化学习的空调控制方法及其系统，该方法包括在空调启动或正常运行时，基于接收到的控制指令和状态参数s，根据奖励机制产生在当前状态下的执行奖励；设定时间窗口Ti，判断当前时间是否在时间窗口Ti内，若判断结果为是，则直接启动强化学习的计算任务，并输出预测动作a；若判断结果为否，则判断是否有其他Master节点发送的计算任务，如是，则启动计算任务；由区块链节点记录当前状态、奖励和动作，并将动作传递给空调，至此完成一轮计算任务。该系统应用于上述的方法。本发明应用于空调的节能控制领域，用以解决目前现有技术中存在的训练困难、稳定性差、浪费计算资源、消耗电力等各种问题。权利要求书2页说明书10页附图6页 CN 115355604 B 2022.12.23 CN 115355604 B 1.一种基于区块链和强化学习的空调控制方法，其特征在于，包括：在空调启动或正常运行时，基于接收到的控制指令和状态参数s，根据奖励机制产生在当前状态下的执行奖励；设定时间窗口Ti，判断当前时间是否在时间窗口Ti内，若判断结果为是，则直接启动强化学习的计算任务，并输出预测动作a；若判断结果为否，则判断是否有其他Master节点发送的计算任务，如是，则启动计算任务；由区块链节点记录当前状态、奖励和动作，并将动作传递给空调，至此完成一轮计算任务；其中，强化学习的计算任务由智能体Agent执行完成，表示为更新网络计算损失度 loss，若轮次达到预定次数n或者损失度l oss<常数e，则计算终止，输出预测动作a。 2.根据权利要求1所述的方法，其特征在于，所述计算任务的强化学习算法包括：利用每个空调机组的历史数据训练离线强化学习算法；当预测的动作a不满足要求时，利用区块链共享数据的特点分配计算任务到拥有相近状态的其他Slave节点；若某个Sl ave节点存在相近的状态，且该Slave节点空闲，则接收该计算任务，在完成计算后并将计算结果通过区块链反馈给Master 节点，由Master 节点来验证任务的完成效果。 3.根据权利要求2所述的方法，其特征在于：当Master节点的当前状态s由于分布偏移造成的训练不准确时，通过区块链发布计算任务给其他Slav e节点， Slave节点从自身的区块链历史数据中查找与所发布的计算任务中状态s相近的状态s ’。 4.根据权利要求1所述的方法，其特征在于，所述强化学习的计算任务执行包括：计算时间窗口，若当前时间到达时间窗口，则获取状态参数s数据；调用神经网络预测器预测下一个时间片的耗电量w0，同时通过Agent预测动作，并通过网络与云端虚拟的建筑环境模型Env进行交互获取下个时间片的耗电量 w1；将w0和w1进行比较，若w0和w1的误差值小于一个常数 e，则发送该动作至空调。 5.根据权利要求 4所述的方法，其特征在于：若w0和w1的误差值不小于常数 e，则存在分布偏移导致计算失败；发布计算任务到区块链，由智能模块节点Slave来完成计算；当确定当前Slave节点为空闲后，从任务链中获取一个未完成的计算任务，从区块链历史状态中搜索与状态s相近的状态s ’，当其历史状态中存在与状态s相近的状态s ’时，则调用Slave自身的Agent ’预测动作a ’并与建筑环境模型Env交互产生下一时间片的耗电量 w’；将w0和w’进行比较，若w0和w ’的误差值小于常数e，则发布任务完成的交易请求到区块链，由Master 节点来验证任务的完成效果。 6.根据权利要求5所述的方法，其特征在于：所述Master节点验证的内容包括当前Slave节点的状态以及其维护结构是否与Master 节点具有相似性，计算结果是否准确、是否到达最大计算时间；若Master节点校验通过后，则分配一定奖励给该Slave节点，记录该交易到区块链并全网广播；若校验不通过，则交易不上区块链，同时等待其他Slave节点的计算结果。 7.根据权利要求1至 6任一项所述的方法，其特征在于：权　利　要　求　书 1/2 页 2 CN 115355604 B 2系统在运行过程中，通过区块链节点记录每个空调机组在时间片内准确的耗电量和制冷/制热量，进而计算出C OP，其中，所有记录对于所有节点为公开可访问且通过hash函数防篡改。 8.根据权利要求1至6任一项所述的方法，其特征在于，所述计算任务的强化学习模型包括：采用建筑仿真模型软件在云端构建虚拟的建筑环境模型Env，智能体Agent通过网络与建筑环境模型Env进行交互从而训练强化学习模型；其中，通过测量获得每台空调机组所在的建筑参数，从而使用建筑仿真模型软件构建对应的建筑环境模型。 9.根据权利要求1至 6任一项所述的方法，其特征在于：在执行强化学习算法时，每个智能模块Master均包括有执行自身任务的时间片Ti，表示为公式（1）： Ti=Th+hash(ip_v6_ad dr)%(60‑t_max) （1）其中， Th表示当前整点时间， hash表示哈希函数， ip_v6_addr表示当前智能模块的ipv6 地址， t_max为强化学习算法每次预测的最大耗时。 10.一种基于区块链和强化学习的空调控制系统，其特征在于，包括：奖励单元，用于在空调启动或正常运行时，基于接收到的控制指令和状态参数s，根据奖励机制产生在当前状态下的执行奖励；计算单元，设定时间窗口Ti，判断当前时间是否在时间窗口Ti内，若判断结果为是，则直接启动强化学习的计算任务，并输出预测动作a；若判断结果为否，则判断是否有其他 Master节点发送的计算任务，如是，则启动计算任务；动作单元，由区块链节点记录当前状态、奖励和动作，并将动作传递给空调，至此完成一轮计算任务；其中，强化学习的计算任务由智能体Agent执行完成，表示为更新网络计算损失度 loss，若轮次达到预定次数n或者损失度l oss<常数e，则计算终止，输出预测动作a。权　利　要　求　书 2/2 页 3 CN 115355604 B 3

专利 一种基于区块链和强化学习的空调控制方法及其系统

专利一种基于区块链和强化学习的空调控制方法及其系统