说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202211276401.0 (22)申请日 2022.10.19 (65)同一申请的已公布的文献号 申请公布号 CN 115355604 A (43)申请公布日 2022.11.18 (73)专利权人 北京理工大 学 地址 100081 北京市海淀区中关村南大街5 号 (72)发明人 祁红波 赵丰年  (74)专利代理 机构 广州三环 专利商标代理有限 公司 44202 专利代理师 杨振鹏 (51)Int.Cl. F24F 11/64(2018.01) F24F 11/47(2018.01)H04L 67/10(2022.01) H04L 67/12(2022.01) G06F 9/48(2006.01) G06N 20/00(2019.01) (56)对比文件 CN 115082845 A,202 2.09.20 CN 10196 3969 A,201 1.02.02 CN 110213796 A,2019.09.0 6 US 2014278718 A1,2014.09.18 CN 114375066 A,2022.04.19 US 2022026864 A1,202 2.01.27 审查员 孙莹 (54)发明名称 一种基于区块链和强化学习的空调控制方 法及其系统 (57)摘要 本发明提供一种基于区块链和强化学习的 空调控制方法及其系统, 该方法包括在空调启动 或正常运行时, 基于接收到的控制指令和状态参 数s, 根据奖励机制产生在当前状态下的执行奖 励; 设定时间窗口Ti, 判断当前时间是否在时间 窗口Ti内, 若判断结果为是, 则直接启动强化学 习的计算任务, 并输出预测动作a; 若判断结果为 否, 则判断是否有其他Master节点发送的计算任 务, 如是, 则启动计算任务; 由区块链节点记录当 前状态、 奖励和动作, 并将动作传递给空调, 至此 完成一轮计算任务。 该系统应用于上述的方法。 本发明应用于空调的节能控制领域, 用以解决目 前现有技术中存在的训练困难、 稳定性差、 浪费 计算资源、 消耗电力等各种问题。 权利要求书2页 说明书10页 附图6页 CN 115355604 B 2022.12.23 CN 115355604 B 1.一种基于区块链和强化学习的空调控制方法, 其特 征在于, 包括: 在空调启动或正常运行时, 基于接收到的控制 指令和状态参数s, 根据 奖励机制产生在 当前状态下的执 行奖励; 设定时间窗口Ti, 判断当前时间是否在时间窗口Ti内, 若判断结果为是, 则直接启动强 化学习的计算任务, 并输出预测动作a; 若判断结果为否, 则判断是否有其他Master节点发 送的计算任务, 如是, 则启动计算任务; 由区块链节点记录当前状态、 奖励和动作, 并将动作传递给空调, 至此完成一轮计算任 务; 其中, 强化学习的计算任务由智能体Agent执行完成, 表示为更新网络计算损失度 loss, 若轮次达 到预定次数n或者损失度l oss<常数e, 则计算终止, 输出 预测动作a。 2.根据权利要求1所述的方法, 其特 征在于, 所述计算任务的强化学习算法包括: 利用每个空调机组的历史数据训练离线强化学习算法; 当预测的动作a不满足要求时, 利用区块链共享数据的特点分配计算任务到拥有相近 状态的其 他Slave节点; 若某个Sl ave节点存在相近的状态, 且该Slave节点空闲, 则接收该计算任务, 在完成计 算后并将计算结果 通过区块链反馈给Master 节点, 由Master 节点来验证任务的完成效果。 3.根据权利要求2所述的方法, 其特 征在于: 当Master节点的当前状态s由于分布偏移造成的训练不准确时, 通过区块链发布计算 任务给其他Slav e节点, Slave节点从自身的区块链历史数据中查找与所发布的计算任务中 状态s相近的状态s ’。 4.根据权利要求1所述的方法, 其特 征在于, 所述强化学习的计算任务执 行包括: 计算时间窗口, 若当前时间到 达时间窗口, 则获取状态参数s数据; 调用神经网络预测器预测下一个时间片的耗电量w0, 同时通过Agent预测动作, 并通过 网络与云端虚拟的建筑环境模型Env进行交 互获取下个时间片的耗电量 w1; 将w0和w1进行比较, 若w0和w1的误差值小于一个常数 e, 则发送该动作至空调。 5.根据权利要求 4所述的方法, 其特 征在于: 若w0和w1的误差值 不小于常数 e, 则存在分布偏移导 致计算失败; 发布计算任务到区块链, 由智能模块节点Slave来完成计算; 当确定当前Slave节点为空闲后, 从任务链中获取一个未完成的计算任务, 从区块链历 史状态中搜索与状态s相近的状态s ’, 当其历史状态中存在与状态s相近的状态s ’时, 则调 用Slave自身的Agent ’预测动作a ’并与建筑环境模型Env交 互产生下一时间片的耗电量 w’; 将w0和w’进行比较, 若w0和w ’的误差值小于常数e, 则发布任务完成的交易请求到区块 链, 由Master 节点来验证任务的完成效果。 6.根据权利要求5所述的方法, 其特 征在于: 所述Master节点验证的内容包括当前Slave节点的状态以及其维护结构是否与Master 节点具有相似性, 计算结果是否准确、 是否 到达最大计算时间; 若Master节点校验通过后, 则分配一定奖励给该Slave节点, 记录该交易到区块链并全 网广播; 若校验不 通过, 则交易 不上区块链, 同时等待其 他Slave节点的计算结果。 7.根据权利要求1至 6任一项所述的方法, 其特 征在于:权 利 要 求 书 1/2 页 2 CN 115355604 B 2系统在运行过程中, 通过区块链节点记录每个空调机组在时间片内准确的耗电量和制 冷/制热量, 进而计算出C OP, 其中, 所有记录对于所有节 点为公开可访问且通过hash函数防 篡改。 8.根据权利要求1至6任一项所述的方法, 其特征在于, 所述计算任务的强化学习模型 包括: 采用建筑仿真模型软件在云端构 建虚拟的建筑环境模型Env, 智能体Agent通过网络与 建筑环境模型Env进行交 互从而训练强化学习模型; 其中, 通过测量获得每台空调机组所在的建筑参数, 从而使用建筑仿真模型软件构建 对应的建筑环境模型。 9.根据权利要求1至 6任一项所述的方法, 其特 征在于: 在执行强化学习算法时, 每个智能模块Master均包括有执行自身任务的时间片Ti, 表 示为公式 (1) : Ti=Th+hash(ip_v6_ad dr)%(60‑t_max)   (1) 其中, Th表示当前整点时间, hash表示哈希函数, ip_v6_addr表示当前智能模块的ipv6 地址, t_max为强化学习算法每次预测的最大耗时。 10.一种基于区块链和强化学习的空调控制系统, 其特 征在于, 包括: 奖励单元, 用于在空调启动或正常运行时, 基于接收到的控制指令和状态参数s, 根据 奖励机制产生在当前状态下的执 行奖励; 计算单元, 设定时间窗口Ti, 判断当前时间是否在时间窗口Ti内, 若判断结果为是, 则 直接启动强化学习的计算任务, 并输出预测动作a; 若判断结果为否, 则判断是否有其他 Master节点发送的计算任务, 如是, 则启动计算任务; 动作单元, 由区块链节点记录当前状态、 奖励和动作, 并将动作传递给空调, 至此完成 一轮计算任务; 其中, 强化学习的计算任务由智能体Agent执行完成, 表示为更新网络计算损失度 loss, 若轮次达 到预定次数n或者损失度l oss<常数e, 则计算终止, 输出 预测动作a。权 利 要 求 书 2/2 页 3 CN 115355604 B 3

.PDF文档 专利 一种基于区块链和强化学习的空调控制方法及其系统

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于区块链和强化学习的空调控制方法及其系统 第 1 页 专利 一种基于区块链和强化学习的空调控制方法及其系统 第 2 页 专利 一种基于区块链和强化学习的空调控制方法及其系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 09:11:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。