(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210619313.X
(22)申请日 2022.06.01
(71)申请人 齐鲁工业大学
地址 250353 山东省济南市长清区大 学路
3501号齐鲁工业大学
(72)发明人 鹿文鹏 王荣耀 张维玉 郑超群
乔新晓
(74)专利代理 机构 济南信达专利事务所有限公
司 37100
专利代理师 孙园园
(51)Int.Cl.
G06F 16/9535(2019.01)
G06F 16/33(2019.01)
G06F 40/30(2020.01)
G06K 9/62(2022.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于细粒度方面特征的智能新闻推荐方法
和系统
(57)摘要
本发明公开了一种基于细粒度方面特征的
智能新闻推荐方法和系统, 属于人工智能领域和
自然语言处理领域。 本发明要解决的技术问题为
基于主题的新闻推荐方法无法准确识别细粒度
方面Aspect ‑level特征, 从而 导致推荐结果不准
确和缺少多样性的问题, 采用的技术方案为: 该
方法具体如下: S1、 构建新闻推荐模型的训练数
据集; S2: 构建基于细粒度方面特征的新闻推荐
模型: 具体如下: S201、 构建Aspect ‑level新闻编
码器; S202、 构建Aspect ‑level用户编码器;
S203、 构建点击率预测器; S3、 训练基于细粒度方
面特征的新闻推荐模型。 该系统包括训练数据集
生成单元、 基于细粒度方面特征的新闻推荐模型
构建单元和模型训练单 元。
权利要求书6页 说明书18页 附图4页
CN 114943034 A
2022.08.26
CN 114943034 A
1.一种基于细粒度方面特征的智能新闻推荐方法, 其特征在于, 该方法通过构建并训
练由Aspect ‑level新闻编码器、 Aspect ‑level用户编码器、 点击率预测器所构成的新闻推
荐模型, 将所有候选新闻依据点击率大小由高到低进行排序, 将Top ‑K条新闻推荐给用户;
具体如下:
构建Aspect ‑level新闻编码器, 以新闻的标题、 摘要、 主类别和子类别信息作为输入,
使用卷积神经网络、 注意力机制和K ‑means聚类算法分别从上述四类信息中学习基于细粒
度方面特 征的新闻向量;
构建Aspect ‑level用户编码器, 以用户浏览记录为输入, 使用Aspect ‑level新闻编码
器和注意力机制得到基于细粒度方面特 征的用户向量;
构建点击率预测器, 根据候选新闻向量和基于细粒度方面特征的用户向量, 计算用户
对每一条候选新闻的点击率; 将所有候选新闻依据点击率大小由高到低进 行排序, 将Top ‑K
条新闻推荐给用户。
2.根据权利要求1所述的基于细粒度方面特征的智能新闻推荐方法, 其特征在于, 所述
Aspect‑level新闻编码器由新闻特征提取器、 Aspect ‑level特征提取器共同组成; 通过联
接新闻特征提取器所输出的新闻特征向量r和Aspect ‑level特征提取器所输出的基于细粒
度方面特 征的新闻向量rd得到Aspect ‑level新闻向量表示 n, 公式如下: n =[r; rd]。
3.根据权利要求2所述的基于细粒度方面特征的智能新闻推荐方法, 其特征在于其新
闻特征提取器, 包括四个模块: 标题学习模块、 摘要 学习模块、 分类学习模块和注意力模块,
具体如下:
构建标题学习模块, 针对数据集中每一个单词构建单词映射表, 并将表中每一个单词
映射成唯一的数字标识, 映射规则为: 以数字1为起始, 随后按照每个单词被录入单词映射
表的顺序依次递增排序, 从而形成单词映射转换表; 使用Glove预训练语言模型, 得到每个
单词的词向量表示; 在嵌入层将每一个新闻标题T=[w1,w2,...,wN]转换成向量表 示, 记为E
=[e1,e2,...,eN], 其中, N表示 一个新闻标题的长度, eN表示第N个单词wN的向量表示;
针对E=[e1,e2,...,eN]使用卷积神经网络CNN进行特征提取, 得到上下文特征向量[c1,
c2,...,cN], 公式如下:
ci=ReLU(Qw×e(i‑k):(i+k)+bw);
其中, i表示相应词向量在新闻标题中的相对位置, k表示距离i相对位置的差值,
e(i‑k):(i+k)表示聚合了(i ‑k)到(i+k)位置的词向量, Qw表示CNN过滤器的卷积核, bw表示偏
置, ReLU为 一种激活函数, 运 算符×为矩阵乘法;
对上下文特征向量[c1,c2,...,cN], 使用注意力机制进一步提取关键特征, 得到最终的
新闻标题向量rt, 公式如下:
权 利 要 求 书 1/6 页
2
CN 114943034 A
2其中, q是由上下文特征向量得到的注意力查询向量, V和v是从训练过程中学到的参
数, tanh为一种激活函数, 运算符 ×为矩阵乘法, exp为对数函数运算, ai是第i个单词的注
意力分值, αi是第i个单词的注意力权 重, N是上下文特征向量[c1,c2,...,cN]的长度;
构建摘要学习模块, 具体步骤同构建标题学习模块, 得到摘要向量ra;
构建分类学习 模块, 在嵌入层通过词向量方法将主类别标签和子类别标签分别映射到
低维空间向量得到每个类别标签的词向量表示ec和esc, 然后使用激活函数ReLU生 成类别标
签的最终向量rc和rsc, 公式如下:
rc=ReLU(Vc×ec+vc);
rsc=ReLU(Vsc×esc+vsc);
其中, ReLU是一种激活函数, Vc, Vsc, vsc和vc是从训练过程中学到的参数, 运算符 ×为矩
阵乘法;
构建注意力模块: 针对标题、 摘要、 主类别标签和子类别标签的向量rt、 ra、 rc和rsc, 使用
激活函数tanh分别计算各自的注意力分数, 即at、 aa、 ac、 asc, 然后进一步通过注意力机制分
别得到各自的注意力权 重, 公式如下:
其中, Vt、 Va、 Vc、 Vsc、 vt、 va、 vc、 vsc为计算标题注意力分数at、 摘要注意力分数aa、 主类别
标签注意力分数ac和子类别标签注意力分数asc的参数,
是由标题向量rt生成的注意力查
询向量,
是由摘要向量ra生成的注意力 查询向量,
是由主类别标签向量rc生成的注意
力查询向量,
是由子类别标签向量rsc生成的注意力查询向量, tanh为一种激活函数, 运
算符×为矩阵乘法, exp为对数函数运算, αt是标题的注意力 权重, αa是摘要的注意力 权重,
αc是主类别标签的注意力权 重, αsc是子类别标签的注意力权 重;
最终的新闻特征向量r由标题向量rt、 摘要向量ra、 主类别标签向量rc和子类别标签向
量rsc以及各自的注意力权 重决定, 公式如下:
r=[αtrt; αara; αcrc; αscrsc];权 利 要 求 书 2/6 页
3
CN 114943034 A
3
专利 基于细粒度方面特征的智能新闻推荐方法和系统
文档预览
中文文档
29 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共29页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:12:08上传分享