专利一种基于强化学习的QKD网络密钥资源预分配方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111679797.9 (22)申请日 2021.12.31 (71)申请人华南师范大学地址 510898 广东省广州市天河区中山大道西55号 (72)发明人郭邦红　董博文　胡敏　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 专利代理师禹小明 (51)Int.Cl. H04L 9/08(2006.01) H04L 45/12(2022.01) H04L 45/243(2022.01) H04L 45/247(2022.01) G06N 20/00(2019.01) (54)发明名称一种基于强化学习的QKD网络密钥资源预分配方法 (57)摘要本发明提供一种基于强化学习的QKD网络密钥资源预分配方法，该方法可以加快量子密钥分配速度、提高密钥分配成功率，同时降低密钥池维护成本，减少密钥资源浪费；在多用户并发量子密钥申请场景下，对公共密钥池中密钥资源进行预先分配并放入固定数量的子密钥池中形成资源集合。与密钥资源请求匹配的子密钥池可以立即将其中的密钥资源分配给对应请求方，大大减少了请求的排队时间；同时，采用强化学习方法对预分配的密钥资源数量进行预测，提高密钥资源匹配度，能够提高分配成功率，减少密钥资源浪费。权利要求书2页说明书9页附图5页 CN 114499842 A 2022.05.13 CN 114499842 A 1.一种基于强化学习的QKD网络密钥资源预分配方法，其特征在于，包括以下步骤： S1：控制层接收用户的量子密钥请求； S2：根据用户请求进行路由选择； S3：判断选择的路径上各链路是否存在与用户密钥请求相匹配的子密钥池，若存在，将所述密钥资源返回给请求方；若不存在，进入步骤S4； S4：判断当前公共密钥池中密钥资源能否满足该请求，如果能，从公共密钥池中为用户分配密钥资源；否则执行步骤S5； S5：将此请求放入阻塞队列中等待密钥资源；如果请求等待时间超过阈值，则将请求从队列中删除并返回分配失败信息； S6：应用层接收反馈信息并保存至强化学习库中； S7：从学习库中随机抽取若干个信息，将其输入强化学习神经网络中进行训练、保存模型并应用预分配策略。 2.根据权利要求1所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，所述步骤S1中，用户请求报文包括：用户身份ID，量子密钥请求数量，源节点与目的节点。 3.根据权利要求2所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，所述步骤S2中，路由选择算法为：用户请求包含密钥请求数量、源节点与目的节点信息；通过K最短路径算法KSP选择n条最短路径，根据每条路径中经过各链路的密钥池中的密钥资源和路径长度计算每条路径的优先级D1， D2， ……， Dn，并选择优先级最高的路径。 4.根据权利要求3所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，所述步骤S2的具体过程是： S21：根据KS P算法选择n条最短路径作为备选路由； S22：判断该K条路径的每条链路上是否存在与用户密钥请求数量相匹配的子密钥池，如果都存在，则执行步骤S23；否则，执行S24； S23：在满足请求匹配条件的若干条路由中选择最短路径作为此次请求的路由； S24：对于KSP算法选择的每条路径，以路径中各链路公共密钥池中密钥资源最少的密钥池中资源数量K作为此路径的密钥资源；计算每条路径的优先级D＝K/L，其中L为路径的长度，并选择优先级最大的路径作为此次路由选择的结果。 5.根据权利要求4所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，所述步骤S7的具体过程是： S71：从学习库中获取历史信息，包括：公共密钥池与各子密钥池中的密钥数量、链路密钥生成速率、当前时间以及网络收益； S72：将网络信息转化为向量，输入强化学习神经网络中，通过网络得到输出； S73：根据神经网络的输出，即预分配策略从公共密钥池中分配一定数量的密钥资源放入子密钥池中； S74：根据用户请求进行密钥分配，根据不同的分配结果，反馈相应信息与网络收益。 6.根据权利要求5所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，所述步骤S72中的网络信息包括：公共密钥池与各子密钥池中的密钥数量、链路密钥生成速率以及当前时间。 7.根据权利要求6所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，权　利　要　求　书 1/2 页 2 CN 114499842 A 2所述步骤S73中，所述预分配策略包括：观察公共密钥池与子密钥池的状态，当公共密钥池中的密钥资源大于阈值且存在空的子密钥池时，将公共密钥池与子密钥池的状态信息、链路密钥生成速率和时间输入强化学习神经网络并得到K个输出；在K个输出中选择一个输出 k作为本次预分配的数量，从公共密钥池中分割出数量为k的密钥块并放入一个空的子密钥池中。 8.根据权利要求7所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，强化学习神经网络包含输入层，隐藏层和输出层，其中：输入层接收网络状态信息，包括：公共密钥池与各子密钥池中的密钥数量、链路密钥生成速率以及当前时间。 9.根据权利要求8所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，神经网络输入使用向量表示，具体形式为： [p0， p1， p2， ……， pm， q， t]，其中， p0为公共密钥池中密钥资源数量； p1， p2， ……pm为m个子密钥池中密钥资源数量， q为链路密钥生成速率， t为当前时间。 10.根据权利要求9所述的基于强化学习的QKD网络密钥资源预分配方法，其特征在于，神经网络的奖励为一段时间内用户密钥请求的分配结果的网络收益；对于一个用户密钥请求，具体策略如下：存在与用户密钥请求相匹配的子密钥池，可将子密钥池的密钥资源直接分配给请求方：网络收益为2；不存在与用户密钥请求相匹配的子密钥池，需要从公共密钥池中为用户分配相应的密钥资源：网络收益为1；公共密钥池中密钥资源不能满足密钥请求，请求被阻塞，等待时间t后为其分配密钥资源：网络收益为1/t∈(0， 1)；请求被阻塞后等待时间超过阈值，请求失败：网络收益为0。权　利　要　求　书 2/2 页 3 CN 114499842 A 3

专利 一种基于强化学习的QKD网络密钥资源预分配方法

专利一种基于强化学习的QKD网络密钥资源预分配方法