说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111644408.9 (22)申请日 2021.12.2 9 (71)申请人 中山大学 地址 510275 广东省广州市海珠区新港西 路135号 (72)发明人 李岱峰 林凯欣 李栩婷 李鑫  古风云 江涛 廖健斌  (74)专利代理 机构 广州粤高专利商标代理有限 公司 44102 代理人 禹小明 (51)Int.Cl. G06F 16/34(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种多模态融合技术的图书宣传摘要生成 方法和系统 (57)摘要 本发明公开了一种多模态融合技术的图书 宣传摘要生成方法和系统, 方法包括以下步骤: S1: 获取包括图书信息的文本信息; S2: 根据所述 文本信息, 基于TextRank的抽取式摘要生成, 生 成第一摘要; S3: 根据所述文本信息, 基于多模态 指针生成 网络, 生成第二摘要; S4: 取第一摘要和 第二摘要的并集为最终的图书宣传摘要。 本发明 结合抽取式与生成式模型的优点, 并取并集, 克 服了两者的缺陷得到更加完整的营销文本 。 权利要求书4页 说明书10页 附图2页 CN 114281982 A 2022.04.05 CN 114281982 A 1.一种多模态融合 技术的图书宣传摘要生成方法, 其特 征在于, 包括以下步骤: S1: 获取包括图书信息的文本信息; S2: 根据所述文本信息, 基于TextRan k的抽取式摘要生成, 生成第一摘要; S3: 根据所述文本信息, 基于多模态指针生成网络, 生成第二摘要; S4: 取第一摘要和第二摘要的并集 为最终的图书宣传摘要。 2.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 步骤 S1中的图书信息包括图书图像、 书名、 作者和内容简介。 3.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 所述 基于TextRan k的抽取式摘要生成, 生成第一摘要, 具体为: TextRank算法的文本网络图可以表示为一个带权的无向网络图G=(V,E,W), 其中:V为 节点的集合, E为节点间各个边的非空有限集合, W为各边上权重的集合; 假设V={V1, V2,...,Vn}, 则记E={(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0}, W={wij,1≤i≤n,1≤j≤n}, 其 中wij为节点Vi与Vj间边的权重值; 通过余弦相似度方法计算可得到句子间的一个n ×n的相 似度矩阵Sn×n: 矩阵Sn×n为对称矩阵, 且 对角线上的元 素值全部取1; 由G和对应的相似度矩阵Sn×n, 可计算出每个节点的权重, 对于任意节点Vi, In(Vi)表示 指向Vi的节点集合, Out(Vj)表示Vi指向节点的集 合, 节点Vi的权重计算式表示 为: 式中:Ws(Vi)为节点Vi的权重, d为阻尼系数, Ws(Vj)表示上一次迭代后节点Vj的权重值, wji表示节点Vj和节点Vi间的相似度; 则基于TextRan k的文本网络图中各节点的权 重的计算式表示 为: 式中:si和sj表示文本中的句子, Ws(si)表示句子si在TextRan k网络图中的权 重; 通过迭代计算就 能得到趋于正常和稳定的权重值后, 依据句子的权重值大小对句子进 行排序, 根据实际需求选取适量排序靠前的句子, 并按照其在原文中的顺序排序, 生成文本 摘要。 4.根据权利要求3所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 首次 使用TextRank算法计算各节 点的权重时, 需要指定每个节点的初始值, 即自身的权重, 设定 所有节点的初始权 重为1, 则B0=(1,1,. ..,1)T, 然后根据边的权 重递归迭代计算至收敛: Bi=Sn×n·Bi‑1 当Bi与Bi‑1的差值小于阈值时, 达 到收敛, 迭代计算结束。权 利 要 求 书 1/4 页 2 CN 114281982 A 25.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 所述 基于多模态指针生成网络, 生成第二摘要, 具体为: 对于文本特 征, 利用Seq2Seq模型 得到一个文本嵌入向量; 对于图像特征, 利用基于模型隐藏状态初始化的视觉特征提取策略, 得到视觉上下文 向量; 将所述文本嵌入向量和视 觉上下文向量结合, 计算得到多模态上 下文向量; 利用所述多模态上下文向量更新指针生成网络, 所述指针生成网络用来预测单词, 得 到第二摘要。 6.根据权利要求5所述的多模态融合技术的图书宣传摘要生成方法, 其特征在于, 对于 文本特征, 所述Seq2Seq模型的结构为Encoder ‑Decoder模型, 先用Encoder将原文本编码成 一个中间层的隐藏状态, 然后用Decoder来将该隐藏状态解码成为另一个文本, Seq2Seq模 型在Encoder端是一个双向的LSTM, 这个双向的LSTM可以捕捉原文本的长距离依赖关系以 及位置信息, 编码时词嵌入经过双向LSTM后得到编码状态, 在Decoder端, 解码器是一个单 向的LSTM, 训练阶段时参考摘要词依次输入, 在时间步t得到解码状态, 使用编码状态和解 码状态得到该时间步原文第i个词注意力权 重, 编码状态hi与解码状态st如下所示: hi=fenc(xi,hi‑1) st=fdec(st‑1,yt‑1,ct) 其中, fenc为编码函数, fdec为解码, yt‑1为t‑1步的生成词, ct是一个上下文向量, 它由基 于注意力的编码器隐藏状态的加权和生成, 其分布如下: αt=softmax(et) ct=∑iαt,ihi 式中, et,i指t阶段第i个词注意力权重、 Wa、 Va、 ba均为学习权重, et指的是t阶段的隐 藏层权重; 对于图像特征, 输入一个给定的图书封面或海报图像图像, 使用Resnet ‑101的最后一 个池化层中提取预先训练的ImageNet的全局的可视化 向量q, 并用它 来初始化编码器和解 码器: 式中, We1、 be1、 We2、 be2、 Wf、 Vw、 bf为学习参数; 为了利用局部视觉特征增强上下文表征, 提取目标特征Vi作为局部的视觉特征, 使用 ResNet‑101初始化的Mask  R‑CNN, 然后使用可视化基因组数据集对其进行再训练, 来自Regi on Proposal Network的RoI Align层; 除了对输入句子的单词的注意外, 多模态指针生成模型还可以对图像的不同区域进行 权重提取, 应用了分层注意力机制, 使模型对文本信息和视觉信息进 行了不同的注意, 我们 使用跨模态 注意策略计算视 觉上下文向量 权 利 要 求 书 2/4 页 3 CN 114281982 A 3

.PDF文档 专利 一种多模态融合技术的图书宣传摘要生成方法和系统

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种多模态融合技术的图书宣传摘要生成方法和系统 第 1 页 专利 一种多模态融合技术的图书宣传摘要生成方法和系统 第 2 页 专利 一种多模态融合技术的图书宣传摘要生成方法和系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 03:55:15上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。