(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111644408.9
(22)申请日 2021.12.2 9
(71)申请人 中山大学
地址 510275 广东省广州市海珠区新港西
路135号
(72)发明人 李岱峰 林凯欣 李栩婷 李鑫
古风云 江涛 廖健斌
(74)专利代理 机构 广州粤高专利商标代理有限
公司 44102
代理人 禹小明
(51)Int.Cl.
G06F 16/34(2019.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种多模态融合技术的图书宣传摘要生成
方法和系统
(57)摘要
本发明公开了一种多模态融合技术的图书
宣传摘要生成方法和系统, 方法包括以下步骤:
S1: 获取包括图书信息的文本信息; S2: 根据所述
文本信息, 基于TextRank的抽取式摘要生成, 生
成第一摘要; S3: 根据所述文本信息, 基于多模态
指针生成 网络, 生成第二摘要; S4: 取第一摘要和
第二摘要的并集为最终的图书宣传摘要。 本发明
结合抽取式与生成式模型的优点, 并取并集, 克
服了两者的缺陷得到更加完整的营销文本 。
权利要求书4页 说明书10页 附图2页
CN 114281982 A
2022.04.05
CN 114281982 A
1.一种多模态融合 技术的图书宣传摘要生成方法, 其特 征在于, 包括以下步骤:
S1: 获取包括图书信息的文本信息;
S2: 根据所述文本信息, 基于TextRan k的抽取式摘要生成, 生成第一摘要;
S3: 根据所述文本信息, 基于多模态指针生成网络, 生成第二摘要;
S4: 取第一摘要和第二摘要的并集 为最终的图书宣传摘要。
2.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 步骤
S1中的图书信息包括图书图像、 书名、 作者和内容简介。
3.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 所述
基于TextRan k的抽取式摘要生成, 生成第一摘要, 具体为:
TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W), 其中:V为
节点的集合, E为节点间各个边的非空有限集合, W为各边上权重的集合; 假设V={V1,
V2,...,Vn}, 则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0}, W={wij,1≤i≤n,1≤j≤n}, 其
中wij为节点Vi与Vj间边的权重值; 通过余弦相似度方法计算可得到句子间的一个n ×n的相
似度矩阵Sn×n:
矩阵Sn×n为对称矩阵, 且 对角线上的元 素值全部取1;
由G和对应的相似度矩阵Sn×n, 可计算出每个节点的权重, 对于任意节点Vi, In(Vi)表示
指向Vi的节点集合, Out(Vj)表示Vi指向节点的集 合, 节点Vi的权重计算式表示 为:
式中:Ws(Vi)为节点Vi的权重, d为阻尼系数, Ws(Vj)表示上一次迭代后节点Vj的权重值,
wji表示节点Vj和节点Vi间的相似度;
则基于TextRan k的文本网络图中各节点的权 重的计算式表示 为:
式中:si和sj表示文本中的句子, Ws(si)表示句子si在TextRan k网络图中的权 重;
通过迭代计算就 能得到趋于正常和稳定的权重值后, 依据句子的权重值大小对句子进
行排序, 根据实际需求选取适量排序靠前的句子, 并按照其在原文中的顺序排序, 生成文本
摘要。
4.根据权利要求3所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 首次
使用TextRank算法计算各节 点的权重时, 需要指定每个节点的初始值, 即自身的权重, 设定
所有节点的初始权 重为1, 则B0=(1,1,. ..,1)T, 然后根据边的权 重递归迭代计算至收敛:
Bi=Sn×n·Bi‑1
当Bi与Bi‑1的差值小于阈值时, 达 到收敛, 迭代计算结束。权 利 要 求 书 1/4 页
2
CN 114281982 A
25.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 所述
基于多模态指针生成网络, 生成第二摘要, 具体为:
对于文本特 征, 利用Seq2Seq模型 得到一个文本嵌入向量;
对于图像特征, 利用基于模型隐藏状态初始化的视觉特征提取策略, 得到视觉上下文
向量;
将所述文本嵌入向量和视 觉上下文向量结合, 计算得到多模态上 下文向量;
利用所述多模态上下文向量更新指针生成网络, 所述指针生成网络用来预测单词, 得
到第二摘要。
6.根据权利要求5所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 对于
文本特征, 所述Seq2Seq模型的结构为Encoder ‑Decoder模型, 先用Encoder将原文本编码成
一个中间层的隐藏状态, 然后用Decoder来将该隐藏状态解码成为另一个文本, Seq2Seq模
型在Encoder端是一个双向的LSTM, 这个双向的LSTM可以捕捉原文本的长距离依赖关系以
及位置信息, 编码时词嵌入经过双向LSTM后得到编码状态, 在Decoder端, 解码器是一个单
向的LSTM, 训练阶段时参考摘要词依次输入, 在时间步t得到解码状态, 使用编码状态和解
码状态得到该时间步原文第i个词注意力权 重, 编码状态hi与解码状态st如下所示:
hi=fenc(xi,hi‑1)
st=fdec(st‑1,yt‑1,ct)
其中, fenc为编码函数, fdec为解码, yt‑1为t‑1步的生成词, ct是一个上下文向量, 它由基
于注意力的编码器隐藏状态的加权和生成, 其分布如下:
αt=softmax(et)
ct=∑iαt,ihi
式中, et,i指t阶段第i个词注意力权重、
Wa、 Va、 ba均为学习权重, et指的是t阶段的隐
藏层权重;
对于图像特征, 输入一个给定的图书封面或海报图像图像, 使用Resnet ‑101的最后一
个池化层中提取预先训练的ImageNet的全局的可视化 向量q, 并用它 来初始化编码器和解
码器:
式中, We1、 be1、 We2、 be2、 Wf、 Vw、 bf为学习参数;
为了利用局部视觉特征增强上下文表征, 提取目标特征Vi作为局部的视觉特征, 使用
ResNet‑101初始化的Mask R‑CNN, 然后使用可视化基因组数据集对其进行再训练,
来自Regi on Proposal Network的RoI Align层;
除了对输入句子的单词的注意外, 多模态指针生成模型还可以对图像的不同区域进行
权重提取, 应用了分层注意力机制, 使模型对文本信息和视觉信息进 行了不同的注意, 我们
使用跨模态 注意策略计算视 觉上下文向量
权 利 要 求 书 2/4 页
3
CN 114281982 A
3
专利 一种多模态融合技术的图书宣传摘要生成方法和系统
文档预览
中文文档
17 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 03:55:15上传分享