说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202110271812.X (22)申请日 2021.03.12 (65)同一申请的已公布的文献号 申请公布号 CN 113095140 A (43)申请公布日 2021.07.09 (73)专利权人 南京理工大 学 地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人 王力立 肖强 周琪林 奚思遥  林高尚 黄成 单梁 张永  (74)专利代理 机构 南京理工大 学专利中心 32203 专利代理师 薛云燕 (51)Int.Cl. G06K 9/00(2022.01)G06N 20/00(2019.01) G06F 30/27(2020.01) 审查员 徐菲 (54)发明名称 基于Q-Learning的移动终端传感器调度方 法 (57)摘要 本发明公开了一种基于Q ‑Learning的移动 终端传感器调度方法。 该方法包括以下步骤: 为 移动终端系统定义新的参数: 窗口, 一个窗口表 示一个时间段; 初始化移动终端系统参数和Q值 表; 确定窗口的长度; 对Q值表进行训练优化, 获 得训练后的Q值表; 利用获得的Q值表调度传感 器。 本发明可以提高移动终端系统传感器触发策 略的实时性和有效性, 减少了传感器能耗, 延长 了传感器使用寿命; 此外, 本发明能提高移动终 端系统更精确快捷地服务人类生活的能力, 可以 被广泛应用于医疗监测、 疾病防控等移动终端实 际应用场景。 权利要求书2页 说明书6页 附图2页 CN 113095140 B 2022.08.16 CN 113095140 B 1.一种基于Q ‑Learning的移动终端传感器调度方法, 其特征在于, 所述方法包括以下 步骤: 步骤1, 为移动终端系统定义 新的参数: 窗口, 一个窗口表示 一个时间段; 步骤2, 初始化移动终端系统参数和Q 值表; 步骤3, 确定窗口 的长度; 步骤4, 对Q 值表进行训练优化, 获得训练后的Q 值表; 步骤5, 利用获得的Q 值表调度传感器; 步骤2所述初始化移动终端系统参数和Q 值表, 具体包括: 初始化移动终端系统参数, 包 括: 总任务时长T、 传感器参数、 决策时长ts、 最大允许延迟 dmax和奖赏函数; 其中, 窗口具体为: 将总任务时长T划分为多个时间段, 每个时间段视为一 个窗口, 按 时间顺序依次对 窗口进行编号1, 2, …,V, V为窗口的总个数; 传感器参数包括传 感器采样频率、 占空比; 初始化Q值表, 表中的每一个数值代表一组状态动作所对应的价值, 值越大, 代表对于 状态而言, 对应的动作能够带来预期价值最大的收益; 初始化Q值表 时, 将表中每一个数值 都设为0; 步骤4所述对Q 值表进行训练优化, 获得训练后的Q 值表, 具体包括: 步骤4‑1, 初始化参数, 包括窗口的长度l和第一个窗口的触发策略(non1,nsleep1)、 动作 空间 non1为在第一个窗口内传感器开启感应的时间; nsleep1为在第一个窗口内传感器关 闭感应的时间; 步骤4‑2, 针对每一个窗口li, 计算传感器所有采样数据的特征向量(Γi1,Γi2,…, Γik); 当前窗口 的特征向量记为si, 下一窗口 的特征向量记为si'; 步骤4‑3, 基于ε‑贪婪策略选择 获得下一个 窗口的触发策略(noni+1,nsleepi+1), 其 中, 0≤ ε<1, 动作空间 为触发策略的有限集 合, 表示为: 式中, non为在一个 窗口内传 感器开启感应的时间, nsleep为在一个 窗口内传感器关闭感 应的时间, non_max为在一个窗口内传 感器允许开启感应的最大时间, nsleep_max为在一个窗口 内传感器允许关闭感应的最大时间, N 为传感器开启感应或关闭感应的时间属于自然数; 步骤4‑4, 根据上述 步骤2中初始化的奖赏 函数计算奖赏 值r; 步骤4‑5, 根据Q值更新公式更新 Q值, 更新公式如下: Q(s,a)= Q(s,a)+α [r+γmaxQ'(s' ,a')‑Q(s,a)] 式中, r为下一个状态返回的奖赏值, γ为折扣系数, α 为学习率, s为当前时刻用户的状 态, a为当前时刻用户状态是s的情形下选择的动作, s'为当前时刻状态是s的用户选择动作 为a到达下一个时刻的状态, a'为下一个时刻用户状态是s'的情形下选择的动作, Q(s,a)为 当前时刻状态 为s的用户选择动作a的Q值, Q'(s',a')为下一时刻状态 为s'的用户选择动作 a'的Q值; 步骤4‑6, 计算仿真实验中状态改变的时间与实 际事件中状态发生改变的时间之间的 延迟, 若延迟 超过dmax, 则返回步骤4 ‑1。 2.根据权利要求1所述的基于Q ‑Learning的移动终端传感器调度方法, 其特征在于, 步权 利 要 求 书 1/2 页 2 CN 113095140 B 2骤1和步骤3中所述的窗口, 在确定窗口长度时, 根据实际情况而定, 遵循的原则为: 既要能 在窗口时段内采集足够多的信号, 又要防止窗口内数据 因过多而被平均化, 单位为决策时 长ts。 3.根据权利要求1所述的基于Q ‑Learning的移动终端传感器调度方法, 其特征在于, 步 骤5所述利用获得的Q 值表调度传感器, 具体包括: 步骤5‑1, 根据当前窗口的触发策略(noni,nsleepi)获得当前窗口的特征向量si=(Γi1, Γi2,…,Γik); 步骤5‑2, 将si输入步骤4获得的Q 值表, 得到下一个窗口 的触发策略(noni+1,nsleepi+1)。 4.根据权利要求1所述的基于Q ‑Learning的移动终端传感器调度方法, 其特征在于, 所 述特征向量的特 征数k=3, 窗口状态的特 征向量为(V,Z,fpeak), 其中: V为窗口峰值, 表征在该窗口内数据的最大值; Z为窗口趋势, 具体 计算过程 为: 对于一组数据 序列{x1,x2,…,xl}; (1)计算统计量S: i={1,2,. ..,l‑1} j={i+1,i+2,. ..,l} 式中, (2)计算标准 化统计量Zc: 其中, var(S)为S的方差: 式中, n为样本数量; (3)计算趋势状态Z: fpeak为瞬时频率 最大值, 即最小两波峰间隔tppmin的倒数: 权 利 要 求 书 2/2 页 3 CN 113095140 B 3

.PDF文档 专利 基于Q-Learning的移动终端传感器调度方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于Q-Learning的移动终端传感器调度方法 第 1 页 专利 基于Q-Learning的移动终端传感器调度方法 第 2 页 专利 基于Q-Learning的移动终端传感器调度方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:22:43上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。