专利一种多模态融合技术的图书宣传摘要生成方法和系统

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111644408.9 (22)申请日 2021.12.2 9 (71)申请人中山大学地址 510275 广东省广州市海珠区新港西路135号 (72)发明人李岱峰　林凯欣　李栩婷　李鑫　古风云　江涛　廖健斌　 (74)专利代理机构广州粤高专利商标代理有限公司 44102 代理人禹小明 (51)Int.Cl. G06F 16/34(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称一种多模态融合技术的图书宣传摘要生成方法和系统 (57)摘要本发明公开了一种多模态融合技术的图书宣传摘要生成方法和系统，方法包括以下步骤： S1：获取包括图书信息的文本信息； S2：根据所述文本信息，基于TextRank的抽取式摘要生成，生成第一摘要； S3：根据所述文本信息，基于多模态指针生成网络，生成第二摘要； S4：取第一摘要和第二摘要的并集为最终的图书宣传摘要。本发明结合抽取式与生成式模型的优点，并取并集，克服了两者的缺陷得到更加完整的营销文本。权利要求书4页说明书10页附图2页 CN 114281982 A 2022.04.05 CN 114281982 A 1.一种多模态融合技术的图书宣传摘要生成方法，其特征在于，包括以下步骤： S1：获取包括图书信息的文本信息； S2：根据所述文本信息，基于TextRan k的抽取式摘要生成，生成第一摘要； S3：根据所述文本信息，基于多模态指针生成网络，生成第二摘要； S4：取第一摘要和第二摘要的并集为最终的图书宣传摘要。 2.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，步骤 S1中的图书信息包括图书图像、书名、作者和内容简介。 3.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，所述基于TextRan k的抽取式摘要生成，生成第一摘要，具体为： TextRank算法的文本网络图可以表示为一个带权的无向网络图G＝(V,E,W)，其中:V为节点的集合， E为节点间各个边的非空有限集合， W为各边上权重的集合；假设V＝{V1, V2,...,Vn}，则记E＝{(Vi,Vj),Vi∈V,Vj∈V,wij∈W,wij≠0}， W＝{wij,1≤i≤n,1≤j≤n}，其中wij为节点Vi与Vj间边的权重值；通过余弦相似度方法计算可得到句子间的一个n ×n的相似度矩阵Sn×n：矩阵Sn×n为对称矩阵，且对角线上的元素值全部取1；由G和对应的相似度矩阵Sn×n，可计算出每个节点的权重，对于任意节点Vi， In(Vi)表示指向Vi的节点集合， Out(Vj)表示Vi指向节点的集合，节点Vi的权重计算式表示为：式中:Ws(Vi)为节点Vi的权重， d为阻尼系数， Ws(Vj)表示上一次迭代后节点Vj的权重值， wji表示节点Vj和节点Vi间的相似度；则基于TextRan k的文本网络图中各节点的权重的计算式表示为: 式中:si和sj表示文本中的句子， Ws(si)表示句子si在TextRan k网络图中的权重；通过迭代计算就能得到趋于正常和稳定的权重值后，依据句子的权重值大小对句子进行排序，根据实际需求选取适量排序靠前的句子，并按照其在原文中的顺序排序，生成文本摘要。 4.根据权利要求3所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，首次使用TextRank算法计算各节点的权重时，需要指定每个节点的初始值，即自身的权重，设定所有节点的初始权重为1，则B0＝(1,1,. ..,1)T，然后根据边的权重递归迭代计算至收敛： Bi＝Sn×n·Bi‑1 当Bi与Bi‑1的差值小于阈值时，达到收敛，迭代计算结束。权　利　要　求　书 1/4 页 2 CN 114281982 A 25.根据权利要求1所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，所述基于多模态指针生成网络，生成第二摘要，具体为：对于文本特征，利用Seq2Seq模型得到一个文本嵌入向量；对于图像特征，利用基于模型隐藏状态初始化的视觉特征提取策略，得到视觉上下文向量；将所述文本嵌入向量和视觉上下文向量结合，计算得到多模态上下文向量；利用所述多模态上下文向量更新指针生成网络，所述指针生成网络用来预测单词，得到第二摘要。 6.根据权利要求5所述的多模态融合技术的图书宣传摘要生成方法，其特征在于，对于文本特征，所述Seq2Seq模型的结构为Encoder ‑Decoder模型，先用Encoder将原文本编码成一个中间层的隐藏状态，然后用Decoder来将该隐藏状态解码成为另一个文本， Seq2Seq模型在Encoder端是一个双向的LSTM，这个双向的LSTM可以捕捉原文本的长距离依赖关系以及位置信息，编码时词嵌入经过双向LSTM后得到编码状态，在Decoder端，解码器是一个单向的LSTM，训练阶段时参考摘要词依次输入，在时间步t得到解码状态，使用编码状态和解码状态得到该时间步原文第i个词注意力权重，编码状态hi与解码状态st如下所示： hi＝fenc(xi,hi‑1) st＝fdec(st‑1,yt‑1,ct) 其中， fenc为编码函数， fdec为解码， yt‑1为t‑1步的生成词， ct是一个上下文向量，它由基于注意力的编码器隐藏状态的加权和生成，其分布如下： αt＝softmax(et) ct＝∑iαt,ihi 式中， et,i指t阶段第i个词注意力权重、 Wa、 Va、 ba均为学习权重， et指的是t阶段的隐藏层权重；对于图像特征，输入一个给定的图书封面或海报图像图像，使用Resnet ‑101的最后一个池化层中提取预先训练的ImageNet的全局的可视化向量q，并用它来初始化编码器和解码器：式中， We1、 be1、 We2、 be2、 Wf、 Vw、 bf为学习参数；为了利用局部视觉特征增强上下文表征，提取目标特征Vi作为局部的视觉特征，使用 ResNet‑101初始化的Mask R‑CNN，然后使用可视化基因组数据集对其进行再训练，来自Regi on Proposal Network的RoI Align层；除了对输入句子的单词的注意外，多模态指针生成模型还可以对图像的不同区域进行权重提取，应用了分层注意力机制，使模型对文本信息和视觉信息进行了不同的注意，我们使用跨模态注意策略计算视觉上下文向量权　利　要　求　书 2/4 页 3 CN 114281982 A 3

专利 一种多模态融合技术的图书宣传摘要生成方法和系统

专利一种多模态融合技术的图书宣传摘要生成方法和系统