(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111503776.1
(22)申请日 2021.12.09
(71)申请人 京东科技信息技 术有限公司
地址 100176 北京市北京经济技 术开发区
科创十一 街18号院2号楼6层6 01
(72)发明人 沈力 孙昊 陶大程
(74)专利代理 机构 北京同立钧成知识产权代理
有限公司 1 1205
代理人 王征 刘芳
(51)Int.Cl.
G06N 20/00(2019.01)
(54)发明名称
分布式机器学习模型的训练方法、 装置、 设
备及介质
(57)摘要
本发明实施例提供一种分布式机器学习模
型的训练方法、 装置、 设备及介质。 该方法包括:
获取对预设机器学习模型进行训练时计算节点
设备对应的多个训练样本数据; 采用本地自适应
随机梯度下 降算法和训练样本数据对预设机器
学习模型进行本轮多次迭代训练, 以获得本轮迭
代训练后的模 型参数及自适应学习率关联参数;
将本轮迭代训练后的模型参数及自适应学习率
关联参数发送给参数服务器, 以指示参数服务器
根据本轮迭代训练后的模型参数及自适应学习
率关联参数计算下一轮迭代训练时的模型参数
及自适应学习率关联参数。 该方法能够有效减少
计算节点设备与参数服务器之间的通信交互次
数, 进而有效提高机 器学习模型的训练效率。
权利要求书3页 说明书22页 附图9页
CN 114169534 A
2022.03.11
CN 114169534 A
1.一种分布式机器学习 模型的训练方法, 其特征在于, 所述方法应用于计算节点设备,
所述方法包括:
获取对预设机器学习模型进行训练时计算节点设备对应的多个训练样本数据;
采用本地自适应随机梯度下降算法和所述训练样本数据对所述预设机器学习模型进
行本轮多次迭代训练, 以获得本轮迭代训练后的模型参数及自适应学习率关联参数;
将本轮迭代训练后的模型参数及自适应学习率关联参数发送给参数服务器, 以指示所
述参数服务器根据本轮迭代训练后的模型参数及自适应学习率关联参数计算下一轮迭代
训练时的模型参数及自适应学习率关联参数。
2.根据权利要求1所述的方法, 其特征在于, 所述采用本地自适应随机梯度下降算法和
所述训练样本数据对所述预设机器学习模型进行本轮多次迭代训练, 以获得本轮迭代训练
后的模型参数及自适应学习率关联参数, 包括:
在本轮每次迭代训练时执 行以下操作:
获取预设机器学习模型的本轮本次迭代训练时的模型参数和本轮上一次迭代训练时
的自适应学习率关联参数;
从所述训练样本数据中随机获取任意 一个训练样本数据;
采用本地自适应随机梯度下降算法、 所述任意一个训练样本数据、 本轮本次迭代训练
时的模型参数和本轮上一次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练
时的自适应学习率关联参数;
根据本轮本次迭代训练时的模型参数及本轮本次迭代训练时的自适应学习率关联参
数计算本轮本次迭代训练后的模型参数。
3.根据权利要求2所述的方法, 其特征在于, 所述本地自适应随机梯度下降算法包括:
本地随机梯度计算 算法及自适应梯度下降算法;
所述采用本地自适应随机梯度下降算法、 所述任意一个训练样本数据、 本轮本次迭代
训练时的模型参数和本轮上一次迭代训练时的自适应学习率关联参数计算本轮本次迭代
训练时的自适应学习率关联参数, 包括:
采用任意一个训练样本数据和所述本轮本次迭代训练时的模型参数计算所述计算节
点设备对应的损失函数;
采用所述本地随机梯度计算算法对所述损失函数进行反向传播操作, 以计算获得本轮
本次迭代训练时的随机梯度;
采用所述自适应梯度 下降算法、 所述本轮本次迭代训练时的随机梯度及本轮上一 次迭
代训练时的自适应学习率关联参数计算本轮本次迭代训练时的自适应学习率关联参数。
4.根据权利要求3所述的方法, 其特征在于, 所述自适应梯度下降算法为学习率通用框
架梯度下降AMSGrad算法, 所述自适应学习率关联参数包括: 动量及二阶动量;
所述采用所述自适应梯度下降算法、 所述本轮本次迭代训练时的随机梯度及本轮上一
次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练时的自适应学习率关联参
数, 包括:
将所述本轮本次迭代训练时的随机梯度及本轮上一次迭代训练时的动量输入到
AMSGrad算法中, 通过 所述AMSGrad算法计算本轮本次迭代训练时的动量;
将所述本轮本次迭代训练时的随机梯度及所述本轮上一次迭代训练时的二阶动量输权 利 要 求 书 1/3 页
2
CN 114169534 A
2入到AMSGrad算法中, 通过 所述AMSGrad算法计算本轮本次迭代训练时的二阶动量。
5.根据权利要求2 ‑4任一项所述的方法, 其特征在于, 所述根据本轮本次迭代训练时的
模型参数及本轮本次迭代训练时的自适应学习率关联参数计算本轮本次迭代训练后的模
型参数, 包括:
获取所述本地自适应随机梯度下降算法对应的预设固定学习率;
根据所述预设固定学习率和所述本轮本次迭代训练时的自适应学习率关联参数计算
本轮本次迭代训练时的自适应学习率;
根据所述本轮本次迭代训练时的自适应学习率对所述本轮本次迭代训练时的模型参
数进行更新, 以获得本轮本次迭代训练后的模型参数。
6.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述将本轮迭代训练后的模型参
数及自适应学习率关联参数发送给参数服 务器之后, 还 包括:
判断是否接收到参数服务器发送的下一轮迭代训练时的模型参数及自适应学习率关
联参数;
若接收到参数服务器发送的下一轮迭代训练时的模型参数及自适应学习率关联参数,
则继续执行获取对预设机器学习模型进行训练时计算节点设备对应的多个训练样本数据
的步骤。
7.根据权利要求1 ‑4任一项所述的方法, 其特征在于, 所述训练样本数据为以下样本数
据的任意 一种: 图像样本数据、 文本样本数据、 音频样本数据、 视频样本数据。
8.一种分布式机器学习 模型的训练方法, 其特征在于, 所述方法应用于参数服务器, 所
述方法包括:
接收多个计算节点设备发送的对预设机器学习模型进行本轮迭代训练后的模型参数
及自适应学习率关联参数; 所述本轮迭代训练后的模型参数及自适应学习率关联参数是对
应的计算节点设备采用本地自适应随机梯度下降算法和训练样本数据对所述预设机器学
习模型进行本轮多次迭代训练后获得的;
根据多个本轮迭代训练后的模型参数及自适应学习率关联参数计算下一轮迭代训练
时的模型参数及自适应学习率关联参数。
9.根据权利要求8所述的方法, 其特征在于, 所述根据多个本轮迭代训练后的模型参数
及自适应学习率关联参数计算下一轮迭代训练时的模型参数及自适应学习率关联参数, 包
括:
计算多个本轮迭代训练后的模型参数的平均值, 以获得下一轮迭代训练时的模型参
数;
计算多个本轮迭代训练后的自适应学习率关联参数的平均值, 以获得下一轮迭代训练
时的自适应学习率关联参数。
10.根据权利要求8 或9所述的方法, 其特征在于, 所述根据多个本轮迭代训练后的模型
参数及自适应学习率关联参数计算下一轮迭代训练时的模型参数及自适应学习率关联参
数之后, 还 包括:
判断是否满足预设机器学习模型的训练收敛 条件;
若确定不满足预设机器学习 模型的训练收敛条件, 则向每个计算节点设备发送下一轮
迭代训练时的模型参数及自适应学习率关联参数。权 利 要 求 书 2/3 页
3
CN 114169534 A
3
专利 分布式机器学习模型的训练方法、装置、设备及介质
文档预览
中文文档
35 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共35页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 01:21:06上传分享