说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211003823.0 (22)申请日 2022.08.22 (71)申请人 科大讯飞股份有限公司 地址 230088 安徽省合肥市高新区望江西 路666号 (72)发明人 刘一凡 李亚 刘权  (74)专利代理 机构 北京集佳知识产权代理有限 公司 11227 专利代理师 王雨 (51)Int.Cl. G06F 16/583(2019.01) G06N 20/00(2019.01) G06F 16/33(2019.01) G06F 16/58(2019.01) G06F 40/216(2020.01)G06F 40/289(2020.01) (54)发明名称 基于图片作诗的方法、 装置、 设备及存储介 质 (57)摘要 本申请公开了一种基于图片作诗的方法、 装 置、 设备及存储介质, 本申请预先配置了图片文 本相似度模 型, 基于该模型计算目标图片与预先 配置的关键词列表中每一关键词对应的关键文 本间的相似度, 基于相似度可以筛选出满足设定 条件的目标关键词, 基于该目标关键词和待生成 诗的目标体裁, 生成与目标图片匹配的诗。 本申 请配置的图片文本相似度模型已经能够很好的 表征输入图片、 文本的特征, 进而计算图片和文 本间的相似度。 在此基础上, 通过预先配置关键 词列表, 能够针对任一目标图片通过模型计算得 到匹配的目标关键词, 当有新的关键词出现时, 可以直接 添加到关键词列表中即可, 无需对模型 进行更新训练, 减少了人力成本 。 权利要求书3页 说明书13页 附图3页 CN 115080786 A 2022.09.20 CN 115080786 A 1.一种基于图片作诗的方法, 其特 征在于, 包括: 获取目标图片, 以及与预配置的关键词列表中每一关键词对应的关键文本, 所述关键 词对应的关键文本为包 含所述关键词且不包 含其余关键词的文本内容; 利用预配置的图片文本相似度模型, 计算所述目标图片与每一关键词对应的关键文本 的相似度; 其中, 所述图片文本相似度模型基于对比学习策略进行预训练, 训练过程, 由训练图片 与其标注的文字描述内容互为正例样本对, 由训练图片与其它训练图片标注的文字描述内 容互为负例样本对, 以最大化正例样本对的表征特征间的相似度, 最小化负例样本对的表 征特征间的相似度为训练目标; 基于所述目标图片与 各关键词对应的关键文本的相似度, 筛选相似度满足设定条件的 目标关键词; 基于所述目标关键词及待生成诗的目标体裁, 生成与所述目标图片匹配的诗。 2.根据权利要求1所述的方法, 其特征在于, 基于所述目标关键词及待生成诗的目标体 裁, 生成与所述目标图片匹配的诗, 包括: 将所述目标关键词及待生成诗的目标体裁按照设定模板编 辑成输入文本, 并将编辑后 的输入文本输入至预配置的诗句生成模型, 得到诗句生成模型输出的与目标图片匹配的 诗; 所述诗句生成模型以训练诗句、 所述训练诗句的体裁, 及从所述训练诗句中抽取的关 键词作为训练数据训练得到 。 3.根据权利要求2所述的方法, 其特征在于, 所述诗句生成模型采用生成式预训练模型 结构; 所述诗句生成模型在生成与目标图片匹配的诗时, 基于所述目标关键词、 所述目标体 裁及已生成字 符, 逐个预测得到下一字符, 直至得到最后一个字符后, 按照预测顺序将各字 符组合为一首诗; 在预测得到每一字符时, 基于模型计算的词典中各字符的概率, 选取概率最大的字符 作为预测得到的字符, 或, 在概率最大的topQ个字符中随机选取一个字符作为预测得到的 字符, Q为设定值。 4.根据权利要求3所述的方法, 其特征在于, 在选取概率最大的字符作为预测字符, 或, 在概率最大的topQ个字符中随机 选取一个字符作为预测字符 之前, 还包括: 按照当前所要预测的字符在整首诗中的出现位置, 以及预设的韵律规律要求, 分别判 断词典中每一字符的发音 是否符合韵律规律要求, 并基于判断结果确定每一字符的惩罚系 数; 将计算得到的词典中每一字符的概率与对应的惩罚系数相乘, 结果作为字符的最终概 率。 5.根据权利要求1所述的方法, 其特征在于, 所述图片文本相似度模型包括文本编码器 和图片编码器, 所述文本编码器用于对输入的文本内容进行编码得到文本表征特征, 所述 图片编码器用于对输入的图片进行编码得到图片表征 特征; 所述利用预配置的图片文本相似度模型, 计算所述目标图片与每一关键词对应的关键 文本的相似度, 包括:权 利 要 求 书 1/3 页 2 CN 115080786 A 2利用所述图片文本相似度模型中的图片编码器, 对所述目标图片编码, 得到目标图片 的表征特征; 利用所述图片文本相似度模型中的文本编码器, 对所述每一关键词对应的关键文本编 码, 得到每一关键文本的表征 特征; 计算所述目标图片的表征 特征与每一关键文本的表征 特征的相似度。 6.根据权利要求1 ‑5任一项所述的方法, 其特征在于, 所述预配置的关键词列表为关键 词树状结构表, 所述关键词树状结构表包括多级节点, 子节点中存储的关键词从属于父节 点中存储的关键词, 结构表中顶端的第一级中不同节点存储属于并列关系的不同类型的关 键词。 7.根据权利要求6所述的方法, 其特征在于, 所述计算所述目标图片与每一关键词对应 的关键文本的相似度, 包括: 按照从关键词树状结构表的顶端第一级的各个节点到末尾最后一级的叶子节点的顺 序遍历结构表中的每一级, 在当前遍历级中确定属于上一遍历级中确定的候选节点的子节 点的各个目标节点, 所述候选节点为所包含的关键词对应的关键文本与所述目标图片的相 似度超过设定相似度阈值的节点; 计算所述目标图片与当前遍历级中确定的每一目标节点的关键词对应的关键文本的 相似度, 并筛选相似度超过所述设定相似度阈值的节点作为候选节点, 直至得到结构表中 每一级的候选节点 为止; 所述基于所述目标图片与 各关键词对应的关键文本的相似度, 筛选相似度满足设定条 件的目标关键词, 包括: 对于结构表中处于第 一级的每个候选节点, 确定从候选节点至每一叶子节点的各条路 径; 在每一条路径中, 查找层级最深的候选节点, 基于查找到的层级最深的候选节点所包 含的关键词, 确定所述目标关键词。 8.根据权利要求7所述的方法, 其特征在于, 所述基于查找到的层级最深的候选节点所 包含的关键词, 确定所述目标关键词, 包括: 将查找到的层级最深的候选节点所包 含的关键词作为所述目标关键词; 或, 由查找到的层级最深的各候选节点组成候选节点集合, 在候选节点集合中判断是否存 在属于父子关系的两个节点, 若存在, 则从候选节点 集合中剔除作为父节点的候选节点; 判断候选节点集合中是否存在属于同一级且从属于相同父节点的两个以上的候选节 点, 若存在, 则 在所述两个以上的候选节点中随机保留一个其余舍弃, 由最 终得到的候选节 点集合中各候选节点所包 含的关键词作为所述目标关键词。 9.根据权利要求6所述的方法, 其特 征在于, 还 包括: 响应用户添加新的关键词的操作, 在所述关键词树状结构表中确定所述新的关键词所 从属的父节点, 在所述从属的父节点下新增子节点, 并将所述新的关键词 添加到所述新增 子节点中。 10.一种基于图片作诗的装置, 其特 征在于, 包括: 图片及关键文本获取单元, 用于获取目标图片, 以及与预配置的关键词列表中每一关权 利 要 求 书 2/3 页 3 CN 115080786 A 3

.PDF文档 专利 基于图片作诗的方法、装置、设备及存储介质

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于图片作诗的方法、装置、设备及存储介质 第 1 页 专利 基于图片作诗的方法、装置、设备及存储介质 第 2 页 专利 基于图片作诗的方法、装置、设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 13:04:47上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。