专利 分布式机器学习模型的训练方法、装置、设备及介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111503776.1 (22)申请日 2021.12.09 (71)申请人京东科技信息技术有限公司地址 100176 北京市北京经济技术开发区科创十一街18号院2号楼6层6 01 (72)发明人沈力　孙昊　陶大程　 (74)专利代理机构北京同立钧成知识产权代理有限公司 1 1205 代理人王征　刘芳 (51)Int.Cl. G06N 20/00(2019.01) (54)发明名称分布式机器学习模型的训练方法、装置、设备及介质 (57)摘要本发明实施例提供一种分布式机器学习模型的训练方法、装置、设备及介质。该方法包括：获取对预设机器学习模型进行训练时计算节点设备对应的多个训练样本数据；采用本地自适应随机梯度下降算法和训练样本数据对预设机器学习模型进行本轮多次迭代训练，以获得本轮迭代训练后的模型参数及自适应学习率关联参数；将本轮迭代训练后的模型参数及自适应学习率关联参数发送给参数服务器，以指示参数服务器根据本轮迭代训练后的模型参数及自适应学习率关联参数计算下一轮迭代训练时的模型参数及自适应学习率关联参数。该方法能够有效减少计算节点设备与参数服务器之间的通信交互次数，进而有效提高机器学习模型的训练效率。权利要求书3页说明书22页附图9页 CN 114169534 A 2022.03.11 CN 114169534 A 1.一种分布式机器学习模型的训练方法，其特征在于，所述方法应用于计算节点设备，所述方法包括：获取对预设机器学习模型进行训练时计算节点设备对应的多个训练样本数据；采用本地自适应随机梯度下降算法和所述训练样本数据对所述预设机器学习模型进行本轮多次迭代训练，以获得本轮迭代训练后的模型参数及自适应学习率关联参数；将本轮迭代训练后的模型参数及自适应学习率关联参数发送给参数服务器，以指示所述参数服务器根据本轮迭代训练后的模型参数及自适应学习率关联参数计算下一轮迭代训练时的模型参数及自适应学习率关联参数。 2.根据权利要求1所述的方法，其特征在于，所述采用本地自适应随机梯度下降算法和所述训练样本数据对所述预设机器学习模型进行本轮多次迭代训练，以获得本轮迭代训练后的模型参数及自适应学习率关联参数，包括：在本轮每次迭代训练时执行以下操作：获取预设机器学习模型的本轮本次迭代训练时的模型参数和本轮上一次迭代训练时的自适应学习率关联参数；从所述训练样本数据中随机获取任意一个训练样本数据；采用本地自适应随机梯度下降算法、所述任意一个训练样本数据、本轮本次迭代训练时的模型参数和本轮上一次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练时的自适应学习率关联参数；根据本轮本次迭代训练时的模型参数及本轮本次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练后的模型参数。 3.根据权利要求2所述的方法，其特征在于，所述本地自适应随机梯度下降算法包括：本地随机梯度计算算法及自适应梯度下降算法；所述采用本地自适应随机梯度下降算法、所述任意一个训练样本数据、本轮本次迭代训练时的模型参数和本轮上一次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练时的自适应学习率关联参数，包括：采用任意一个训练样本数据和所述本轮本次迭代训练时的模型参数计算所述计算节点设备对应的损失函数；采用所述本地随机梯度计算算法对所述损失函数进行反向传播操作，以计算获得本轮本次迭代训练时的随机梯度；采用所述自适应梯度下降算法、所述本轮本次迭代训练时的随机梯度及本轮上一次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练时的自适应学习率关联参数。 4.根据权利要求3所述的方法，其特征在于，所述自适应梯度下降算法为学习率通用框架梯度下降AMSGrad算法，所述自适应学习率关联参数包括：动量及二阶动量；所述采用所述自适应梯度下降算法、所述本轮本次迭代训练时的随机梯度及本轮上一次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练时的自适应学习率关联参数，包括：将所述本轮本次迭代训练时的随机梯度及本轮上一次迭代训练时的动量输入到 AMSGrad算法中，通过所述AMSGrad算法计算本轮本次迭代训练时的动量；将所述本轮本次迭代训练时的随机梯度及所述本轮上一次迭代训练时的二阶动量输权　利　要　求　书 1/3 页 2 CN 114169534 A 2入到AMSGrad算法中，通过所述AMSGrad算法计算本轮本次迭代训练时的二阶动量。 5.根据权利要求2 ‑4任一项所述的方法，其特征在于，所述根据本轮本次迭代训练时的模型参数及本轮本次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练后的模型参数，包括：获取所述本地自适应随机梯度下降算法对应的预设固定学习率；根据所述预设固定学习率和所述本轮本次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练时的自适应学习率；根据所述本轮本次迭代训练时的自适应学习率对所述本轮本次迭代训练时的模型参数进行更新，以获得本轮本次迭代训练后的模型参数。 6.根据权利要求1 ‑4任一项所述的方法，其特征在于，所述将本轮迭代训练后的模型参数及自适应学习率关联参数发送给参数服务器之后，还包括：判断是否接收到参数服务器发送的下一轮迭代训练时的模型参数及自适应学习率关联参数；若接收到参数服务器发送的下一轮迭代训练时的模型参数及自适应学习率关联参数，则继续执行获取对预设机器学习模型进行训练时计算节点设备对应的多个训练样本数据的步骤。 7.根据权利要求1 ‑4任一项所述的方法，其特征在于，所述训练样本数据为以下样本数据的任意一种：图像样本数据、文本样本数据、音频样本数据、视频样本数据。 8.一种分布式机器学习模型的训练方法，其特征在于，所述方法应用于参数服务器，所述方法包括：接收多个计算节点设备发送的对预设机器学习模型进行本轮迭代训练后的模型参数及自适应学习率关联参数；所述本轮迭代训练后的模型参数及自适应学习率关联参数是对应的计算节点设备采用本地自适应随机梯度下降算法和训练样本数据对所述预设机器学习模型进行本轮多次迭代训练后获得的；根据多个本轮迭代训练后的模型参数及自适应学习率关联参数计算下一轮迭代训练时的模型参数及自适应学习率关联参数。 9.根据权利要求8所述的方法，其特征在于，所述根据多个本轮迭代训练后的模型参数及自适应学习率关联参数计算下一轮迭代训练时的模型参数及自适应学习率关联参数，包括：计算多个本轮迭代训练后的模型参数的平均值，以获得下一轮迭代训练时的模型参数；计算多个本轮迭代训练后的自适应学习率关联参数的平均值，以获得下一轮迭代训练时的自适应学习率关联参数。 10.根据权利要求8 或9所述的方法，其特征在于，所述根据多个本轮迭代训练后的模型参数及自适应学习率关联参数计算下一轮迭代训练时的模型参数及自适应学习率关联参数之后，还包括：判断是否满足预设机器学习模型的训练收敛条件；若确定不满足预设机器学习模型的训练收敛条件，则向每个计算节点设备发送下一轮迭代训练时的模型参数及自适应学习率关联参数。权　利　要　求　书 2/3 页 3 CN 114169534 A 3

专利 分布式机器学习模型的训练方法、装置、设备及介质

专利分布式机器学习模型的训练方法、装置、设备及介质