专利一种基于迁移学习的模型训练方法、信息推荐方法及装置

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111574273.3 (22)申请日 2021.12.21 (71)申请人北京三快在线科技有限公司地址 100080 北京市海淀区北四环西路9号 2106-030 (72)发明人张锦　王海涛　董健　王永康　王兴星　张亚鹏　 (74)专利代理机构北京曼威知识产权代理有限公司 11709 代理人邓超 (51)Int.Cl. G06Q 30/06(2012.01) G06Q 30/02(2012.01) G06N 20/00(2019.01) (54)发明名称一种基于迁移学习的模型训练方法、信息推荐方法及装置 (57)摘要本说明书公开了一种基于迁移学习的模型训练方法、信息推荐方法及装置，在接收到用户终端发送的信息推荐请求时，可根据该信息推荐请求中的用户标识，确定用户在目标域中的历史行为数据，以及在源域中的聚合样本数据。之后，根据该用户在目标域中的历史行为数据、在源域的聚合样本数据以及候选商品的商品信息，确定该用户对应于候选商品的融合样本数据。最后，基于该融合样本数据，通过点击预测模型确定该用户对候选商品的预测点击率，以基于该用户对各候选商品的预测点击率，向该用户进行商品推荐。将用户在源域中的聚合样本数据，与在目标域的样本数据进行融合，扩充了样本数据的丰富度，使模型预测结果更准确，提升了信息推荐的命中率。权利要求书3页说明书13页附图7页 CN 114331602 A 2022.04.12 CN 114331602 A 1.一种基于迁移学习的模型训练方法，其特征在于，包括：获取若干用户在目标域中的各样本数据，以及所述各用户在源域中的各样本数据，所述样本数据中至少包括用户的历史行为数据以及商品信息；针对所述每个用户，根据该用户在所述源域中的各样本数据，确定该用户在所述源域中的聚合样本数据；针对该用户在所述目标域中的每个样本数据，根据该样本数据以及该用户在所述源域中的聚合样本数据，确定该用户的融合样本数据，作为第一训练样本，并根据该样本数据对应在所述目标域的业务执行结果，对所述第一训练样本进行标注；分别将各第一训练样本输入待训练的点击预测模型中，确定各第一训练样本对应的预测点击率；根据各第一训练样本对应的预测点击率与各第一训练样本的标注，确定损失函数，并以最小化所述损失函数为目标，调整所述点击预测模型中的模型参数；其中，所述点击预测模型用于进行信息推荐。 2.如权利要求1所述的方法，其特征在于，根据该样本数据以及该用户在所述源域中的聚合样本数据，确定该用户的融合样本数据，具体包括：确定该用户在所述源域中的若干关联用户；根据各关联用户在所述源域中的各样本数据，确定各关联用户在所述源域中的聚合样本数据；根据该样本数据、该用户在所述源域中的聚合样本数据，以及各关联用户在所述源域中的聚合样本数据，确定该用户的融合样本数据。 3.如权利要求2所述的方法，其特征在于，确定该用户在所述源域中的若干关联用户，具体包括：根据该用户在所述源域中的用户标识，以及预先构建的用户索引，确定该用户在所述源域中的若干关联用户。 4.如权利要求3所述的方法，其特征在于，构建用户索引，具体包括：确定所述源域中各用户的用户特征；针对所述源域中的每个用户，根据该用户的用户特征以及所述源域中各其他用户的用户特征，确定该用户与各其他用户的相似度；根据该用户与各其他用户的相似度，确定该用户的关联用户，并根据各用户及其关联用户，构建用户索引。 5.如权利要求1所述的方法，其特征在于，所述方法还包括：根据该用户在所述源域中的聚合样本数据，确定第二训练样本，并根据该用户的各样本数据对应在所述源域的业务执行结果，对所述第二训练样本进行标注；分别将各第二训练样本输入待训练的点击预测模型中，确定各第二训练样本对应的预测点击率；确定损失函数，具体包括：根据各第一训练样本对应的预测点击率与各第一训练样本的标注，各第二训练样本对应的预测点击率与各第二训练样本的标注，确定损失函数。 6.如权利要求1所述的方法，其特征在于，所述方法还包括：权　利　要　求　书 1/3 页 2 CN 114331602 A 2确定该用户在所述源域中的若干关联用户；根据各关联用户在所述源域中的各样本数据，确定各关联用户在所述源域中的聚合样本数据，作为第三训练样本，并根据各关联用户的各样本数据对应在所述源域的业务执行结果，对所述第三训练样本进行标注；分别将各第三训练样本输入待训练的点击预测模型中，确定各第三训练样本对应的预测点击率；确定损失函数，具体包括：根据各第一训练样本对应的预测点击率与各第一训练样本的标注，各第二训练样本对应的预测点击率与各第二训练样本的标注，以及各第三训练样本对应的预测点击率与各第三训练样本的标注，确定损失函数。 7.一种信息推荐方法，其特征在于，包括：接收用户终端发送的信息推荐请求；根据所述信息推荐请求中用户的用户标识，确定所述用户在目标域中的历史行为数据，以及所述用户在源域中的各样本数据；根据所述用户在所述源域中的各样本数据，确定所述用户在所述源域的聚合样本数据；针对待推荐的每个候选商品，根据所述用户在目标域中的历史行为数据、该候选商品的商品信息，以及所述用户在所述源域的聚合样本数据，确定所述用户对应于该候选商品的融合样本数据；将所述用户对应于该候选商品的融合样本数据输入预先训练的点击预测模型中，确定所述用户对该候选商品的预测点击率，并根据所述用户对各候选商品的预测点击率，向所述用户进行商品推荐；其中，所述点击预测模型采用权利要求1～6任一所述的方法训练得到。 8.如权利要求7所述的方法，其特征在于，根据所述用户在目标域中的历史行为数据、该候选商品的商品信息，以及所述用户在所述源域的聚合样本数据，确定所述用户对应于该候选商品的融合样本数据，具体包括：确定所述用户在所述源域中的若干关联用户；根据各关联用户在所述源域中的各样本数据，确定各关联用户在所述源域中的聚合样本数据；根据所述用户在目标域中的历史行为数据、该候选商品的商品信息、所述用户在所述源域中的聚合样本数据，以及各关联用户在所述源域中的聚合样本数据，确定所述用户的融合样本数据。 9.一种基于迁移学习的模型训练装置，其特征在于，包括：获取模块，配置为获取若干用户在目标域中的各样本数据，以及所述各用户在源域中的各样本数据，所述样本数据中至少包括用户的历史行为数据以及商品信息；聚合模块，配置为针对所述每个用户，根据该用户在所述源域中的各样本数据，确定该用户在所述源域中的聚合样本数据；标注模块，配置为针对该用户在所述目标域中的每个样本数据，根据该样本数据以及该用户在所述源域中的聚合样本数据，确定该用户的融合样本数据，作为第一训练样本，并权　利　要　求　书 2/3 页 3 CN 114331602 A 3

专利 一种基于迁移学习的模型训练方法、信息推荐方法及装置

专利一种基于迁移学习的模型训练方法、信息推荐方法及装置