(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210458879.9
(22)申请日 2022.04.27
(71)申请人 咪咕文化科技有限公司
地址 100032 北京市西城区华远街1 1号
申请人 中国移动通信集团有限公司
(72)发明人 谢中流 钱瑞和 严考碧 吕香伟
陈启林
(74)专利代理 机构 北京银龙知识产权代理有限
公司 11243
专利代理师 陈丽宁
(51)Int.Cl.
G06V 10/44(2022.01)
G06V 10/25(2022.01)
G06V 10/26(2022.01)
G06V 10/82(2022.01)G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/776(2022.01)
G06V 20/40(2022.01)
G06T 7/73(2017.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
视频内容的植入方法、 模型训练方法、 装置
及电子设备
(57)摘要
本申请公开了一种视频内容的植入方法、 模
型训练方法、 装置及电子设备, 属于人工智 能技
术领域。 本申请实施例中视频内容的植入方法包
括: 获取第一媒体内容以及目标视频中的包含面
板区域的多帧图像; 将目标帧图像输入第一模型
进行预测, 获得目标帧图像中的面板区域的角点
信息和掩膜信息, 所述目标帧图像为多帧图像中
的一帧图像, 所述掩膜信息在所述角点信息的监
督下预测得到; 根据目标帧图像中的面板区域的
角点信息和掩膜信息, 确定多帧图像中除目标帧
图像之外的其他帧图像中的面板区域的角点信
息和掩膜信息; 根据多帧图像的每帧图像中的面
板区域的角点信息和掩膜信息, 将第一媒体内容
植入目标视频。 由此, 可 以提升植入内容后的视
频的真实度。
权利要求书3页 说明书10页 附图4页
CN 114898112 A
2022.08.12
CN 114898112 A
1.一种视频内容的植入方法, 其特 征在于, 包括:
获取第一 媒体内容以及目标视频中的包 含面板区域的多帧图像;
将目标帧图像输入第 一模型进行预测, 获得所述目标帧图像中的面板区域的角点信 息
和掩膜信息; 其中, 所述目标帧图像为所述多帧图像中的一帧图像, 所述掩膜信息在所述角
点信息的监 督下预测得到;
根据所述目标帧图像中的面板区域的角点信 息和掩膜信 息, 确定所述多帧图像中除所
述目标帧图像之外的其 他帧图像中的面板区域的角点信息和掩膜信息;
根据所述多帧图像的每帧图像中的面板区域的角点信 息和掩膜信 息, 将所述第 一媒体
内容植入所述目标视频。
2.根据权利要求1所述的方法, 其特征在于, 所述第 一模型包括第 一子模型和第 二子模
型, 所述第一子模型用于预测所述面板区域的角点信息, 所述第二子模型用于预测所述面
板区域的掩膜信息, 所述第二子模型的损失函数利用所述第一子模型预测的角点信息监督
所述第二子模型的预测结果。
3.根据权利要求2所述的方法, 其特 征在于, 所述第二子模型的损失函数Lseg_point为:
其中, (i,j)为所述第二子模型预测的掩膜坐标, Apoint为所述第一子模型预测的角点坐
标对应的角点所构成的区域, dist(ij,Apoint)为坐标点(i,j)到区域Apoint的最短距离, α 为
预设的权重系数, Lseg为所述第二子模型在坐 标点(i,j)位于区域Apoint内时的损失函数, Lseg
+α *Lseg*dist(ij,Apoint)为所述第二子模型在坐标点(i,j)位于区域Apoint之外时的损失函
数。
4.根据权利要求1所述的方法, 其特征在于, 所述根据所述目标帧图像中的面板区域的
角点信息和掩膜信息, 确定所述多帧图像中除所述目标帧图像之外的其他帧图像中的面板
区域的角点信息和掩膜信息, 包括:
根据所述目标帧图像中的面板区域的角点信 息和掩膜信 息, 以及所述多帧图像之间的
时序信息, 确定所述 其他帧图像的每帧图像中的面板区域的角点信息和掩膜信息 。
5.根据权利要求4所述的方法, 其特征在于, 所述目标帧图像为所述多帧图像的第 一帧
图像, 所述根据所述 目标帧图像中的面板区域的角点信息和掩膜信息, 以及所述多帧图像
之间的时序信息, 确定所述其他帧图像的每 帧图像中的面板区域的角点信息和掩膜信息,
包括:
循环执行以下过程, 确定所述其他帧图像的每帧图像中的面板区域的角点信 息和掩膜
信息:
S1: 将当前帧图像和所述当前帧图像的上一帧图像输入第二模型进行特征提取, 获得
时空特征;
S2: 将所述上一帧图像的角点信息输入第三模型进行特征提取, 获得所述上一帧图像
的角点特征, 以及将所述上一帧图像的掩膜信息输入第四模型进行特征提取, 获得所述上
一帧图像的掩膜特 征;
S3: 对所述时空特 征与所述掩膜特 征进行融合, 获得第一融合特 征;权 利 要 求 书 1/3 页
2
CN 114898112 A
2S4: 对所述第一融合特 征与所述角点特 征进行融合, 获得第二融合特 征;
S5: 将所述第二融合特征输入第五模型进行预测, 获得所述当前帧图像的角点信息和
掩膜信息;
其中, 在第一次执 行所述S1至S5时, 所述上一帧图像为所述目标帧图像。
6.根据权利要求5所述的方法, 其特征在于, 所述对所述第 一融合特征与所述角点特征
进行融合, 获得第二融合特 征, 包括:
采用如下公式, 获得 所述第二融合特 征Featfuse:
Featfuse=Featmid+FeatMask_fuse
其中, FeatMask_fuse为所述第一融合特征, Featmid,mn为Featmid中的第m行第n列的值,
FeatMask_fuse,m为所述第一融合特征FeatMask_fuse的第m个值, FeatAtt,n为所述角点特征FeatAtt
的第n个值, N 为所述角点特 征FeatAtt中的特征值的个数, exp()表示指数函数。
7.根据权利要求5所述的方法, 其特征在于, 所述对所述第 一融合特征与所述角点特征
进行融合, 获得第二融合特 征, 包括:
根据所述上一帧图像的掩膜信 息对所述第 一融合特征进行背景匹配, 获得第 三融合特
征;
对所述第三融合特 征与所述角点特 征进行融合, 获得 所述第二融合特 征。
8.根据权利要求1至7任一项所述的方法, 其特征在于, 所述根据所述多帧图像的每帧
图像中的面板区域的角点信息和掩膜信息, 将所述第一 媒体内容 植入所述目标视频, 包括:
根据所述每帧图像中的面板区域的角点信息, 分别对所述第一媒体内容进行优化, 得
到多个目标媒体内容;
根据所述每帧图像中的面板区域的掩膜信 息, 将所述多个目标媒体内容植入所述多帧
图像。
9.一种模型训练方法, 其特 征在于, 包括:
获取待训练的图像样本集, 其中, 所述图像样本集中的每个图像样本标注有角点标签
和掩膜标签, 所述角点标签用于表征所述图像样本中的面板区域的角点信息, 所述掩膜标
签用于表征 所述图像样本中的面板区域的掩膜信息;
将所述图像样本集输入预设模型进行训练, 获得第 一模型, 其中, 所述第 一模型包括第
一子模型和第二子模型, 所述第一子模型用于预测所述面板区域的角点信息, 所述第二子
模型用于预测所述面板区域的掩膜信息, 所述第二子模型的损失函数利用所述第一子模型
预测的角点信息监 督所述第二子模型的预测结果。
10.一种视频内容的植入 装置, 其特 征在于, 包括:
第一获取模块, 用于获取第一 媒体内容以及目标视频中的包 含面板区域的多帧图像;
预测模块, 用于将目标帧图像输入第一模型进行预测, 获得所述目标帧图像中的面板
区域的角点信息和掩膜信息; 其中, 所述目标帧图像为所述多帧图像中的一帧图像, 所述掩
膜信息在所述角点信息的监 督下预测得到;
确定模块, 用于根据所述目标帧图像中的面板区域的角点信息和掩膜信息, 确定所述权 利 要 求 书 2/3 页
3
CN 114898112 A
3
专利 视频内容的植入方法、模型训练方法、装置及电子设备
文档预览
中文文档
18 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共18页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-03-03 12:06:46上传分享