专利视频内容的植入方法、模型训练方法、装置及电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210458879.9 (22)申请日 2022.04.27 (71)申请人咪咕文化科技有限公司地址 100032 北京市西城区华远街1 1号申请人中国移动通信集团有限公司 (72)发明人谢中流　钱瑞和　严考碧　吕香伟　陈启林　 (74)专利代理机构北京银龙知识产权代理有限公司 11243 专利代理师陈丽宁 (51)Int.Cl. G06V 10/44(2022.01) G06V 10/25(2022.01) G06V 10/26(2022.01) G06V 10/82(2022.01)G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/776(2022.01) G06V 20/40(2022.01) G06T 7/73(2017.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称视频内容的植入方法、模型训练方法、装置及电子设备 (57)摘要本申请公开了一种视频内容的植入方法、模型训练方法、装置及电子设备，属于人工智能技术领域。本申请实施例中视频内容的植入方法包括：获取第一媒体内容以及目标视频中的包含面板区域的多帧图像；将目标帧图像输入第一模型进行预测，获得目标帧图像中的面板区域的角点信息和掩膜信息，所述目标帧图像为多帧图像中的一帧图像，所述掩膜信息在所述角点信息的监督下预测得到；根据目标帧图像中的面板区域的角点信息和掩膜信息，确定多帧图像中除目标帧图像之外的其他帧图像中的面板区域的角点信息和掩膜信息；根据多帧图像的每帧图像中的面板区域的角点信息和掩膜信息，将第一媒体内容植入目标视频。由此，可以提升植入内容后的视频的真实度。权利要求书3页说明书10页附图4页 CN 114898112 A 2022.08.12 CN 114898112 A 1.一种视频内容的植入方法，其特征在于，包括：获取第一媒体内容以及目标视频中的包含面板区域的多帧图像；将目标帧图像输入第一模型进行预测，获得所述目标帧图像中的面板区域的角点信息和掩膜信息；其中，所述目标帧图像为所述多帧图像中的一帧图像，所述掩膜信息在所述角点信息的监督下预测得到；根据所述目标帧图像中的面板区域的角点信息和掩膜信息，确定所述多帧图像中除所述目标帧图像之外的其他帧图像中的面板区域的角点信息和掩膜信息；根据所述多帧图像的每帧图像中的面板区域的角点信息和掩膜信息，将所述第一媒体内容植入所述目标视频。 2.根据权利要求1所述的方法，其特征在于，所述第一模型包括第一子模型和第二子模型，所述第一子模型用于预测所述面板区域的角点信息，所述第二子模型用于预测所述面板区域的掩膜信息，所述第二子模型的损失函数利用所述第一子模型预测的角点信息监督所述第二子模型的预测结果。 3.根据权利要求2所述的方法，其特征在于，所述第二子模型的损失函数Lseg_point为：其中， (i,j)为所述第二子模型预测的掩膜坐标， Apoint为所述第一子模型预测的角点坐标对应的角点所构成的区域， dist(ij,Apoint)为坐标点(i,j)到区域Apoint的最短距离， α 为预设的权重系数， Lseg为所述第二子模型在坐标点(i,j)位于区域Apoint内时的损失函数， Lseg +α *Lseg*dist(ij,Apoint)为所述第二子模型在坐标点(i,j)位于区域Apoint之外时的损失函数。 4.根据权利要求1所述的方法，其特征在于，所述根据所述目标帧图像中的面板区域的角点信息和掩膜信息，确定所述多帧图像中除所述目标帧图像之外的其他帧图像中的面板区域的角点信息和掩膜信息，包括：根据所述目标帧图像中的面板区域的角点信息和掩膜信息，以及所述多帧图像之间的时序信息，确定所述其他帧图像的每帧图像中的面板区域的角点信息和掩膜信息。 5.根据权利要求4所述的方法，其特征在于，所述目标帧图像为所述多帧图像的第一帧图像，所述根据所述目标帧图像中的面板区域的角点信息和掩膜信息，以及所述多帧图像之间的时序信息，确定所述其他帧图像的每帧图像中的面板区域的角点信息和掩膜信息，包括：循环执行以下过程，确定所述其他帧图像的每帧图像中的面板区域的角点信息和掩膜信息： S1：将当前帧图像和所述当前帧图像的上一帧图像输入第二模型进行特征提取，获得时空特征； S2：将所述上一帧图像的角点信息输入第三模型进行特征提取，获得所述上一帧图像的角点特征，以及将所述上一帧图像的掩膜信息输入第四模型进行特征提取，获得所述上一帧图像的掩膜特征； S3：对所述时空特征与所述掩膜特征进行融合，获得第一融合特征；权　利　要　求　书 1/3 页 2 CN 114898112 A 2S4：对所述第一融合特征与所述角点特征进行融合，获得第二融合特征； S5：将所述第二融合特征输入第五模型进行预测，获得所述当前帧图像的角点信息和掩膜信息；其中，在第一次执行所述S1至S5时，所述上一帧图像为所述目标帧图像。 6.根据权利要求5所述的方法，其特征在于，所述对所述第一融合特征与所述角点特征进行融合，获得第二融合特征，包括：采用如下公式，获得所述第二融合特征Featfuse： Featfuse＝Featmid+FeatMask_fuse 其中， FeatMask_fuse为所述第一融合特征， Featmid,mn为Featmid中的第m行第n列的值， FeatMask_fuse,m为所述第一融合特征FeatMask_fuse的第m个值， FeatAtt,n为所述角点特征FeatAtt 的第n个值， N 为所述角点特征FeatAtt中的特征值的个数， exp()表示指数函数。 7.根据权利要求5所述的方法，其特征在于，所述对所述第一融合特征与所述角点特征进行融合，获得第二融合特征，包括：根据所述上一帧图像的掩膜信息对所述第一融合特征进行背景匹配，获得第三融合特征；对所述第三融合特征与所述角点特征进行融合，获得所述第二融合特征。 8.根据权利要求1至7任一项所述的方法，其特征在于，所述根据所述多帧图像的每帧图像中的面板区域的角点信息和掩膜信息，将所述第一媒体内容植入所述目标视频，包括：根据所述每帧图像中的面板区域的角点信息，分别对所述第一媒体内容进行优化，得到多个目标媒体内容；根据所述每帧图像中的面板区域的掩膜信息，将所述多个目标媒体内容植入所述多帧图像。 9.一种模型训练方法，其特征在于，包括：获取待训练的图像样本集，其中，所述图像样本集中的每个图像样本标注有角点标签和掩膜标签，所述角点标签用于表征所述图像样本中的面板区域的角点信息，所述掩膜标签用于表征所述图像样本中的面板区域的掩膜信息；将所述图像样本集输入预设模型进行训练，获得第一模型，其中，所述第一模型包括第一子模型和第二子模型，所述第一子模型用于预测所述面板区域的角点信息，所述第二子模型用于预测所述面板区域的掩膜信息，所述第二子模型的损失函数利用所述第一子模型预测的角点信息监督所述第二子模型的预测结果。 10.一种视频内容的植入装置，其特征在于，包括：第一获取模块，用于获取第一媒体内容以及目标视频中的包含面板区域的多帧图像；预测模块，用于将目标帧图像输入第一模型进行预测，获得所述目标帧图像中的面板区域的角点信息和掩膜信息；其中，所述目标帧图像为所述多帧图像中的一帧图像，所述掩膜信息在所述角点信息的监督下预测得到；确定模块，用于根据所述目标帧图像中的面板区域的角点信息和掩膜信息，确定所述权　利　要　求　书 2/3 页 3 CN 114898112 A 3

专利 视频内容的植入方法、模型训练方法、装置及电子设备

专利视频内容的植入方法、模型训练方法、装置及电子设备