(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211276401.0
(22)申请日 2022.10.19
(65)同一申请的已公布的文献号
申请公布号 CN 115355604 A
(43)申请公布日 2022.11.18
(73)专利权人 北京理工大 学
地址 100081 北京市海淀区中关村南大街5
号
(72)发明人 祁红波 赵丰年
(74)专利代理 机构 广州三环 专利商标代理有限
公司 44202
专利代理师 杨振鹏
(51)Int.Cl.
F24F 11/64(2018.01)
F24F 11/47(2018.01)H04L 67/10(2022.01)
H04L 67/12(2022.01)
G06F 9/48(2006.01)
G06N 20/00(2019.01)
(56)对比文件
CN 115082845 A,202 2.09.20
CN 10196 3969 A,201 1.02.02
CN 110213796 A,2019.09.0 6
US 2014278718 A1,2014.09.18
CN 114375066 A,2022.04.19
US 2022026864 A1,202 2.01.27
审查员 孙莹
(54)发明名称
一种基于区块链和强化学习的空调控制方
法及其系统
(57)摘要
本发明提供一种基于区块链和强化学习的
空调控制方法及其系统, 该方法包括在空调启动
或正常运行时, 基于接收到的控制指令和状态参
数s, 根据奖励机制产生在当前状态下的执行奖
励; 设定时间窗口Ti, 判断当前时间是否在时间
窗口Ti内, 若判断结果为是, 则直接启动强化学
习的计算任务, 并输出预测动作a; 若判断结果为
否, 则判断是否有其他Master节点发送的计算任
务, 如是, 则启动计算任务; 由区块链节点记录当
前状态、 奖励和动作, 并将动作传递给空调, 至此
完成一轮计算任务。 该系统应用于上述的方法。
本发明应用于空调的节能控制领域, 用以解决目
前现有技术中存在的训练困难、 稳定性差、 浪费
计算资源、 消耗电力等各种问题。
权利要求书2页 说明书10页 附图6页
CN 115355604 B
2022.12.23
CN 115355604 B
1.一种基于区块链和强化学习的空调控制方法, 其特 征在于, 包括:
在空调启动或正常运行时, 基于接收到的控制 指令和状态参数s, 根据 奖励机制产生在
当前状态下的执 行奖励;
设定时间窗口Ti, 判断当前时间是否在时间窗口Ti内, 若判断结果为是, 则直接启动强
化学习的计算任务, 并输出预测动作a; 若判断结果为否, 则判断是否有其他Master节点发
送的计算任务, 如是, 则启动计算任务;
由区块链节点记录当前状态、 奖励和动作, 并将动作传递给空调, 至此完成一轮计算任
务;
其中, 强化学习的计算任务由智能体Agent执行完成, 表示为更新网络计算损失度
loss, 若轮次达 到预定次数n或者损失度l oss<常数e, 则计算终止, 输出 预测动作a。
2.根据权利要求1所述的方法, 其特 征在于, 所述计算任务的强化学习算法包括:
利用每个空调机组的历史数据训练离线强化学习算法;
当预测的动作a不满足要求时, 利用区块链共享数据的特点分配计算任务到拥有相近
状态的其 他Slave节点;
若某个Sl ave节点存在相近的状态, 且该Slave节点空闲, 则接收该计算任务, 在完成计
算后并将计算结果 通过区块链反馈给Master 节点, 由Master 节点来验证任务的完成效果。
3.根据权利要求2所述的方法, 其特 征在于:
当Master节点的当前状态s由于分布偏移造成的训练不准确时, 通过区块链发布计算
任务给其他Slav e节点, Slave节点从自身的区块链历史数据中查找与所发布的计算任务中
状态s相近的状态s ’。
4.根据权利要求1所述的方法, 其特 征在于, 所述强化学习的计算任务执 行包括:
计算时间窗口, 若当前时间到 达时间窗口, 则获取状态参数s数据;
调用神经网络预测器预测下一个时间片的耗电量w0, 同时通过Agent预测动作, 并通过
网络与云端虚拟的建筑环境模型Env进行交 互获取下个时间片的耗电量 w1;
将w0和w1进行比较, 若w0和w1的误差值小于一个常数 e, 则发送该动作至空调。
5.根据权利要求 4所述的方法, 其特 征在于:
若w0和w1的误差值 不小于常数 e, 则存在分布偏移导 致计算失败;
发布计算任务到区块链, 由智能模块节点Slave来完成计算;
当确定当前Slave节点为空闲后, 从任务链中获取一个未完成的计算任务, 从区块链历
史状态中搜索与状态s相近的状态s ’, 当其历史状态中存在与状态s相近的状态s ’时, 则调
用Slave自身的Agent ’预测动作a ’并与建筑环境模型Env交 互产生下一时间片的耗电量 w’;
将w0和w’进行比较, 若w0和w ’的误差值小于常数e, 则发布任务完成的交易请求到区块
链, 由Master 节点来验证任务的完成效果。
6.根据权利要求5所述的方法, 其特 征在于:
所述Master节点验证的内容包括当前Slave节点的状态以及其维护结构是否与Master
节点具有相似性, 计算结果是否准确、 是否 到达最大计算时间;
若Master节点校验通过后, 则分配一定奖励给该Slave节点, 记录该交易到区块链并全
网广播; 若校验不 通过, 则交易 不上区块链, 同时等待其 他Slave节点的计算结果。
7.根据权利要求1至 6任一项所述的方法, 其特 征在于:权 利 要 求 书 1/2 页
2
CN 115355604 B
2系统在运行过程中, 通过区块链节点记录每个空调机组在时间片内准确的耗电量和制
冷/制热量, 进而计算出C OP, 其中, 所有记录对于所有节 点为公开可访问且通过hash函数防
篡改。
8.根据权利要求1至6任一项所述的方法, 其特征在于, 所述计算任务的强化学习模型
包括:
采用建筑仿真模型软件在云端构 建虚拟的建筑环境模型Env, 智能体Agent通过网络与
建筑环境模型Env进行交 互从而训练强化学习模型;
其中, 通过测量获得每台空调机组所在的建筑参数, 从而使用建筑仿真模型软件构建
对应的建筑环境模型。
9.根据权利要求1至 6任一项所述的方法, 其特 征在于:
在执行强化学习算法时, 每个智能模块Master均包括有执行自身任务的时间片Ti, 表
示为公式 (1) :
Ti=Th+hash(ip_v6_ad dr)%(60‑t_max) (1)
其中, Th表示当前整点时间, hash表示哈希函数, ip_v6_addr表示当前智能模块的ipv6
地址, t_max为强化学习算法每次预测的最大耗时。
10.一种基于区块链和强化学习的空调控制系统, 其特 征在于, 包括:
奖励单元, 用于在空调启动或正常运行时, 基于接收到的控制指令和状态参数s, 根据
奖励机制产生在当前状态下的执 行奖励;
计算单元, 设定时间窗口Ti, 判断当前时间是否在时间窗口Ti内, 若判断结果为是, 则
直接启动强化学习的计算任务, 并输出预测动作a; 若判断结果为否, 则判断是否有其他
Master节点发送的计算任务, 如是, 则启动计算任务;
动作单元, 由区块链节点记录当前状态、 奖励和动作, 并将动作传递给空调, 至此完成
一轮计算任务;
其中, 强化学习的计算任务由智能体Agent执行完成, 表示为更新网络计算损失度
loss, 若轮次达 到预定次数n或者损失度l oss<常数e, 则计算终止, 输出 预测动作a。权 利 要 求 书 2/2 页
3
CN 115355604 B
3
专利 一种基于区块链和强化学习的空调控制方法及其系统
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 09:11:57上传分享