专利一种基于增强型信息流对抗网络的推荐系统方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111623753.4 (22)申请日 2021.12.28 (71)申请人天翼数字生活科技有限公司地址 200072 上海市静安区万荣路1256、 1258号1423室 (72)发明人谢张　杨立扬　宫敏　成国强　 (74)专利代理机构上海专利商标事务所有限公司 31100 专利代理师唐杰敏　亓云 (51)Int.Cl. G06F 16/9535(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种基于增强型信息流对抗网络的推荐系统方法 (57)摘要本发明提供了一种基于生成式对抗网络的推荐系统方法，该生成式对抗网络包括第一层生成器、第二层生成器和判别器，该方法包括：通过预训练来构建推荐系统所需数据集；在获取预训练结果之后构建预训练数据；基于第一层生成器和第二层生成器来创建内部信息流网络；基于内部信息流网络的结果和判别器来创建外部信息流网络；以及设置训练参数并且使用预训练数据和训练参数来对内部信息流网络和外部信息流网络执行迭代训练。此外，本发明还提供了一种计算机可读存储介质。通过本发明，能够解决生成式对抗网络用于推荐系统的局限性，显著提高推荐系统的有效性。权利要求书1页说明书8页附图3页 CN 114912013 A 2022.08.16 CN 114912013 A 1.一种基于生成式对抗网络的推荐系统方法，所述生成式对抗网络包括第一层生成器、第二层生成器和判别器，所述方法包括：通过预训练来构建推荐系统所需数据集；在获取预训练结果之后构建预训练数据；基于所述第一层生成器和所述第二层生成器来创建内部信息流网络；基于所述内部信息流网络的结果和所述判别器来创建外部信息流网络；以及设置训练参数并且使用所述预训练数据和所述训练参数来对所述内部信息流网络和所述外部信息流网络执行迭代训练。 2.如权利要求1所述的方法，其中所述预训练包括：获取单个用户与物品的关系特征。 3.如权利要求1所述的方法，其中创建内部信息流网络包括：初始化设置所述第一层生成器和所述第二层生成器；以及通过最大化交叉熵损失来改进所述第二层生成器的性能。 4.如权利要求1所述的方法，其中创建内部信息流网络包括：由所述第一层生成器对物品负样本进行采样；以及在进行采样之后将物品特征输入到两层神经网络中，其中第一层神经网络由非线性函数Tanh激活，并且第二层神经网络由非线性函数Sigmo id激活。 5.如权利要求1所述的方法，其中创建外部信息流网络包括：初始化设置内部信息流和所述判别器；通过最大化交叉熵损失来改进所述判别器的性能。 6.如权利要求1所述的方法，其中创建外部信息流网络包括：将内部信息流结果输入双层线性神经网络，其中第一层线性神经网络由非线性函数 Tanh激活，第二层线性神经网络由非线性函数Sigmo id激活。 7.如权利要求1所述的方法，其中迭代训练包括：选择最小最大博弈进行优化以迭代训练所述第一层生成器和所述第二层生成器，其中每次训练过程都调取所述内部信息流网络。 8.如权利要求1所述的方法，其中迭代训练包括：选择最小最大博弈进行优化以迭代训练所述第二层生成器和所述判别器，其中每次训练过程调取所述外部信息流网络。 9.如权利要求1所述的方法，其中迭代训练包括：所述第一层生成器将经过筛选的负样本以概率分布形式教给所述第二层生成器；所述第二层生成器给所述第一层生成器一个反馈奖励；所述第二层生成器向所述判别器生成经过筛选的负样本对；以及所述判别器给所述第二层生成器一个判别反馈，其中从所述判别反馈对于真实负样本对的学习中，所述第二层生成器和所述判别器共同进步。 10.一种存储计算机程序的计算机可读存储介质，所述计算机程序在由处理器执行时实现如权利要求1 ‑9中任一项所述的方法。权　利　要　求　书 1/1 页 2 CN 114912013 A 2一种基于增强型信息流对抗网络的推荐系统方法技术领域 [0001]本发明涉及推荐系统/信息检索，更具体地，涉及一种基于生成式对抗网络的推荐系统方法。背景技术 [0002]一个典型的推荐系统包含两个角色，即用户和项目。推荐系统计算用户对项目的偏好，从而可以过滤出一系列项目并提供给用户。在这个过程中，通过捕获项目节点信息为特定用户采样合适的结果。对于一些推荐系统任务，现有的相关模型取得了不错的效果。例如， BPR([1]Steffen Rendle,Christoph Freudenthaler,Zeno Gantner and Lars Schmidt ‑Thieme.2012.BPR:Bayesian personalized ranking from implicit feedback.InUAI.)用于形成BP R‑Opt，它源自用于最佳个性化排名的最大后验估计量； NCF ([2]Xiangnan He,Lizi Liao,Hanwang Zhang,LiqiangNie,Xia Hu and Tat‑ SengChua.2017.Neural collaborative filtering.In WWW.173–182.)结合了矩阵分解和多层感知器，使其能够从低维和高维中提取特征，从而获得良好的推荐结果。 [0003]生成式对抗网络模型的框架可以分为两个部分：生成器和判别器。生成器不断拟合真实数据分布并生成假数据来欺骗判别器。判别器通过生成器的重复对抗训练来学习区分假数据和真实数据。随着推荐系统和生成式对抗网络的爆发式发展，越来越多的研究人员将生成式对抗网络应用到推荐系统的任务中。由于推荐系统的特殊性，在应用生成式对抗网络处理推荐系统任务时，生成器不会像往常一样生成新事物，而是以生成硬负样本的形式处理信息流。生成器不会生成新事物，而是为判别器针对现有项目进行采样，后续判别器会对已采样项目进行二次打分。现有部分系统已将生成式对抗网络应用于推荐系统。例如， PDGAN([3]Wu Q,Liu Y and Miao C.2019.PD ‑GAN:Adversarial Learning for Personalized Diversity ‑Promoting Recommendation.In IJCAI.3870 ‑3876.)的提出是为了更好地捕捉用户对单个项目和一组项目的多样性的个人偏好；而受生成式对抗网络在图像领域应用启发的IRGAN([4]Jun Wang,Lantao Yu,Weinan Zhang,Yu Gong,Yinghui Xu,Benyou Wang,PengZhang,and Dell Zhang.2017.Irgan:A minimax game for unifying generativeand discriminative information retrieval models.In SIGIR.515 –524.)将对抗网络应用于多个半监督IR任务，可以正确处理隐式反馈，对于推荐系统任务， I RGAN实现了经典的协同过滤作为用户偏好的评分函数之一，这使模型保持整洁并且开创了对抗网络在推荐领域的特殊 “采样”，但是在IRGAN中，由于生成器和判别器的训练结果不等价，生成器得到的改进程度远低于判别器得到的改进。此外，由于生成器的样本生成接近随机，因此在训练早期生成器的效果很差([5]Wu Q,Burges C J C,Svore K M,et al.2010.Adapting boosting for information retrieval measures.In Information Retrieval.13(3):254 ‑270.)。 [0004]相应地，本领域中存在对于改进的基于生成式对抗网络的推荐系统的需要。说　明　书 1/8 页 3 CN 114912013 A 3

专利 一种基于增强型信息流对抗网络的推荐系统方法

专利一种基于增强型信息流对抗网络的推荐系统方法