专利一种车联网中基于边缘计算和深度强化学习的动态服务放置方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210992657.5 (22)申请日 2022.08.18 (71)申请人重庆大学地址 400044 重庆市沙坪坝区沙正街174号 (72)发明人李秀华　李辉　孙川　徐峥辉　郝金隆　蔡春茂　范琪琳　杨正益　文俊浩　 (74)专利代理机构重庆缙云专利代理事务所 (特殊普通合伙) 50237 专利代理师王翔 (51)Int.Cl. H04W 16/22(2009.01) H04W 16/18(2009.01) G06F 9/50(2006.01) G06N 3/04(2006.01)G06N 3/08(2006.01) G16Y 20/10(2020.01) G16Y 20/30(2020.01) G16Y 30/00(2020.01) (54)发明名称一种车联网中基于边缘计算和深度强化学习的动态服务放置方法 (57)摘要本发明公开一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，包括以下步骤： 1)建立网络与服务请求模型，获取网络与服务请求相关信息； 2)建立网络与服务请求计算模型； 3)构建状态空间、动作空间、策略函数和奖励函数； 4)构建演员网络和批评家网络，并对演员网络和批评家网络进行训练； 5)演员网络生成服务放置策略，并输入到批评家网络中； 6)所述批评家网络评估服务放置策略的策略质量，若评估不通过，则更新演员网络参数，并返回步骤5)，若评估通过，则输出服务放置策略。本发明在考虑车辆的移动性、变化的需求和对不同类型服务请求的动态性的同时，最小化最大的边缘资源使用和服务延迟。权利要求书3页说明书10页附图2页 CN 115550944 A 2022.12.30 CN 115550944 A 1.一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，其特征在于，包括以下步骤： 1)建立所述网络与服务请求模型，获取网络与服务请求相关信息。 2)建立网络与服务请求计算模型； 3)构建状态空间、动作空间、策略函数和奖励函数； 4)构建演员网络和批评家网络，并对演员网络和批评家网络进行训练； 5)演员网络生成服务放置策略，并输入到批评家网络中； 6)所述批评家网络评估服务放置策略的策略质量，若评估不通过，则更新演员网络参数，并返回步骤5)，若评估通过，则输出服务放置策略。 2.根据权利要求1所述的一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，其特征在于，所述网络与服务请求相关信息包括边缘服务器信息、车辆信息、服务信息；所述边缘服务器信息包括边缘服务器集合E，边缘服务器e，边缘服务器e的剩余资源容量Ce；所述车辆信息包括车辆集合V。所述服务信息包括服务集合S、请求服务 s的车辆数量 λs、一次可以处理一个服务实例或可以提供并行连接的车辆数量 ε、服务请求消息中指定时间t和车辆位置loc、边缘服务器部署服务s所消耗的资源量Rs、时延需求阈值Ds；所述服务实例包括车联网环境中的媒体文件下载、合作意识消息和环境通知服务。 3.根据权利要求1所述的一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，其特征在于，所述网络与服务请求计算模型包括总服务时延计算模型、边缘资源使用率计算模型；总服务时延计算模型如下所示：式中，为总服务时延；为传播时延和排队时延； dist(v,s)为车辆v与服务 s部署的边缘服务器之间的欧氏距离； c为信号通过通信介质的传播速度；当请求服务s的车辆数量λs≤ε时，排队时延当请求服务s的车辆数量λs＞ε时，排队时延满足下式：式中，数量差 λ ′s＝ λs‑ε；传播时延如下所示：式中， dist(v,s)为车辆v与服务s部署的边缘服务器之间的欧氏距离； c为信号通过通权　利　要　求　书 1/3 页 2 CN 115550944 A 2信介质的传播速度。边缘资源使用率计算模型如下所示：边缘资源使用率是服务实例消耗的资源与边缘服务器的可用资源之间的比率，如下所示：式中，参数 Ce为边缘服务器e的剩余资源容量；为边缘资源使用率； Rs为边缘服务器部署服务s所消耗的资源量。 4.根据权利要求1所述的一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，其特征在于，所述状态空间通过状态空间集ω表征，即： ω＝{[v1,loc1,s],[v2,loc2,s],...,[vn,locn,s]}t (6) 式中， s∈S； v1,v2,...,vn为一组车辆集合； loc1,loc2,...,locn为在t时，请求服务s的车辆位置集合。 5.根据权利要求1所述的一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，其特征在于，所述动作空间用于描述在边缘服务器上放置服务时所采取的动作；其中，在给定的时刻t所采取的动作a如下所示：式中， π 是在时间单位t对ω的观察集生成动作所需的策略函数；表示服务s部署于边缘服务器e；表示服务s没有部署于边缘服务器e。 6.根据权利要求1所述的一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，其特征在于，所述策略函数π是演员网络执行的函数，用于将状态空间映射到动作空间，即π:ω →a；策略函数π 的目标是最小化最大边缘资源使用和服务时延，并通过使用参数β 来控制资源使用与服务时延的相对重要性；策略函数π表示如下：式中， β 为权重系数。所述策略函数π的约束包括映射约束时延约束资源约束 7.根据权利要求1所述的一种车联网中基于边缘计算和深度强化学习的动态服务放置方法，其特征在于，所述奖励函数如下所示：式中，为即时奖励。 γ为奖励系数。为t时刻的服务时延。权　利　要　求　书 2/3 页 3 CN 115550944 A 3

专利 一种车联网中基于边缘计算和深度强化学习的动态服务放置方法

专利一种车联网中基于边缘计算和深度强化学习的动态服务放置方法