专利基于Q-Learning的移动终端传感器调度方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202110271812.X (22)申请日 2021.03.12 (65)同一申请的已公布的文献号申请公布号 CN 113095140 A (43)申请公布日 2021.07.09 (73)专利权人南京理工大学地址 210094 江苏省南京市玄武区孝陵卫 200号 (72)发明人王力立　肖强　周琪林　奚思遥　林高尚　黄成　单梁　张永　 (74)专利代理机构南京理工大学专利中心 32203 专利代理师薛云燕 (51)Int.Cl. G06K 9/00(2022.01)G06N 20/00(2019.01) G06F 30/27(2020.01) 审查员徐菲 (54)发明名称基于Q-Learning的移动终端传感器调度方法 (57)摘要本发明公开了一种基于Q ‑Learning的移动终端传感器调度方法。该方法包括以下步骤：为移动终端系统定义新的参数：窗口，一个窗口表示一个时间段；初始化移动终端系统参数和Q值表；确定窗口的长度；对Q值表进行训练优化，获得训练后的Q值表；利用获得的Q值表调度传感器。本发明可以提高移动终端系统传感器触发策略的实时性和有效性，减少了传感器能耗，延长了传感器使用寿命；此外，本发明能提高移动终端系统更精确快捷地服务人类生活的能力，可以被广泛应用于医疗监测、疾病防控等移动终端实际应用场景。权利要求书2页说明书6页附图2页 CN 113095140 B 2022.08.16 CN 113095140 B 1.一种基于Q ‑Learning的移动终端传感器调度方法，其特征在于，所述方法包括以下步骤：步骤1，为移动终端系统定义新的参数：窗口，一个窗口表示一个时间段；步骤2，初始化移动终端系统参数和Q 值表；步骤3，确定窗口的长度；步骤4，对Q 值表进行训练优化，获得训练后的Q 值表；步骤5，利用获得的Q 值表调度传感器；步骤2所述初始化移动终端系统参数和Q 值表，具体包括：初始化移动终端系统参数，包括：总任务时长T、传感器参数、决策时长ts、最大允许延迟 dmax和奖赏函数；其中，窗口具体为：将总任务时长T划分为多个时间段，每个时间段视为一个窗口，按时间顺序依次对窗口进行编号1， 2， …,V， V为窗口的总个数；传感器参数包括传感器采样频率、占空比；初始化Q值表，表中的每一个数值代表一组状态动作所对应的价值，值越大，代表对于状态而言，对应的动作能够带来预期价值最大的收益；初始化Q值表时，将表中每一个数值都设为0；步骤4所述对Q 值表进行训练优化，获得训练后的Q 值表，具体包括：步骤4‑1，初始化参数，包括窗口的长度l和第一个窗口的触发策略(non1,nsleep1)、动作空间 non1为在第一个窗口内传感器开启感应的时间； nsleep1为在第一个窗口内传感器关闭感应的时间；步骤4‑2，针对每一个窗口li，计算传感器所有采样数据的特征向量(Γi1,Γi2,…, Γik)；当前窗口的特征向量记为si，下一窗口的特征向量记为si'；步骤4‑3，基于ε‑贪婪策略选择获得下一个窗口的触发策略(noni+1,nsleepi+1)，其中， 0≤ ε＜1，动作空间为触发策略的有限集合，表示为：式中， non为在一个窗口内传感器开启感应的时间， nsleep为在一个窗口内传感器关闭感应的时间， non_max为在一个窗口内传感器允许开启感应的最大时间， nsleep_max为在一个窗口内传感器允许关闭感应的最大时间， N 为传感器开启感应或关闭感应的时间属于自然数；步骤4‑4，根据上述步骤2中初始化的奖赏函数计算奖赏值r；步骤4‑5，根据Q值更新公式更新 Q值，更新公式如下： Q(s,a)＝ Q(s,a)+α [r+γmaxQ'(s' ,a')‑Q(s,a)] 式中， r为下一个状态返回的奖赏值， γ为折扣系数， α 为学习率， s为当前时刻用户的状态， a为当前时刻用户状态是s的情形下选择的动作， s'为当前时刻状态是s的用户选择动作为a到达下一个时刻的状态， a'为下一个时刻用户状态是s'的情形下选择的动作， Q(s,a)为当前时刻状态为s的用户选择动作a的Q值， Q'(s',a')为下一时刻状态为s'的用户选择动作 a'的Q值；步骤4‑6，计算仿真实验中状态改变的时间与实际事件中状态发生改变的时间之间的延迟，若延迟超过dmax，则返回步骤4 ‑1。 2.根据权利要求1所述的基于Q ‑Learning的移动终端传感器调度方法，其特征在于，步权　利　要　求　书 1/2 页 2 CN 113095140 B 2骤1和步骤3中所述的窗口，在确定窗口长度时，根据实际情况而定，遵循的原则为：既要能在窗口时段内采集足够多的信号，又要防止窗口内数据因过多而被平均化，单位为决策时长ts。 3.根据权利要求1所述的基于Q ‑Learning的移动终端传感器调度方法，其特征在于，步骤5所述利用获得的Q 值表调度传感器，具体包括：步骤5‑1，根据当前窗口的触发策略(noni,nsleepi)获得当前窗口的特征向量si＝(Γi1, Γi2,…,Γik)；步骤5‑2，将si输入步骤4获得的Q 值表，得到下一个窗口的触发策略(noni+1,nsleepi+1)。 4.根据权利要求1所述的基于Q ‑Learning的移动终端传感器调度方法，其特征在于，所述特征向量的特征数k＝3，窗口状态的特征向量为(V,Z,fpeak)，其中： V为窗口峰值，表征在该窗口内数据的最大值； Z为窗口趋势，具体计算过程为：对于一组数据序列{x1,x2,…,xl}； (1)计算统计量S： i＝{1,2,. ..,l‑1} j＝{i+1,i+2,. ..,l} 式中， (2)计算标准化统计量Zc：其中， var(S)为S的方差：式中， n为样本数量； (3)计算趋势状态Z： fpeak为瞬时频率最大值，即最小两波峰间隔tppmin的倒数：权　利　要　求　书 2/2 页 3 CN 113095140 B 3

专利 基于Q-Learning的移动终端传感器调度方法

专利基于Q-Learning的移动终端传感器调度方法