专利对象文案的确定方法、装置、系统及计算机程序产品

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210589058.9 (22)申请日 2022.05.26 (71)申请人阿里巴巴（中国）有限公司地址 310052 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人侯兴林　张渊猛　高弈奇　葛铁铮　姜宇宁　 (74)专利代理机构北京开阳星知识产权代理有限公司 1 1710 专利代理师郭鑫 (51)Int.Cl. G06V 30/146(2022.01) G06V 10/774(2022.01) G06V 10/80(2022.01) (54)发明名称对象文案的确定方法、装置、系统及计算机程序产品 (57)摘要本公开涉及一种对象文案的确定方法、装置、系统及计算机程序产品。本公开的至少一个实施例中，本公开的至少一个实施例中，通过获取目标对象的多模态描述信息，可以将多模态描述信息融合为目标对象的描述语义，该描述语义融合了不同模态的部分描述信息，实现了对目标对象的语义表征；通过获取目标对象的目标背景素材，在目标背景素材上设置至少一个文案显示区域，以便确定对象文案在目标背景素材上的位置；从而，利用目标对象的描述语义确定目标背景素材上每个文案显示区域内显示的对象文案信息，无需创作者在背景素材的不同位置编辑不同的对象文案，降低创作门槛，提高创作效率。权利要求书2页说明书10页附图2页 CN 115116063 A 2022.09.27 CN 115116063 A 1.一种对象文案的确定方法，所述方法包括：获取目标对象的多模态描述信息，所述多模态描述信息中每一种模态描述信息记录有所述目标对象的部分描述信息，且不同模态描述信息采用不同的数据存储格式存储；获取所述目标对象的目标背景素材，所述目标背景素材上设置有至少一个文案显示区域；基于所述多模态描述信息，将每一种模态描述信息记录的所述目标对象的部分描述信息进行语义融合，得到所述目标对象的描述语义；基于所述目标对象的描述语义，确定所述目标背景素材上每个所述文案显示区域内显示的对象文案信息。 2.根据权利要求1所述的方法，其中，所述获取所述目标对象的目标背景素材，包括：获取所述目标对象的背景素材；确定所述背景素材包括的文案显示区域的数量以及每个所述文案显示区域在所述背景素材的位置；基于每个所述文案显示区域在所述背景素材的位置，在所述背景素材上设置对应的文案显示区域，得到目标背景素材。 3.根据权利要求2所述的方法，其中，确定所述背景素材包括的文案显示区域的数量以及每个所述文案显示区域在所述背景素材的位置，包括：通过预先训练的文案显示区域确定模型，对所述背景素材进行文案显示区域处理，输出所述背景素材包括的文案显示区域的数量以及每个所述文案显示区域在所述背景素材的位置；或，响应于在所述背景素材上设置文案显示区域的操作，确定所述背景素材包括的文案显示区域的数量以及每个所述文案显示区域在所述背景素材的位置。 4.根据权利要求1所述的方法，其中，所述基于所述多模态描述信息，将每一种模态描述信息记录的所述目标对象的部分描述信息进行语义融合，得到所述目标对象的描述语义，包括：将所述多模态描述信息输入预先训练的多模态语义理解模型，通过所述多模态语义理解模型，将每一种模态描述信息记录的所述目标对象的部分描述信息进行语义融合，输出所述目标对象的描述语义。 5.根据权利要求4所述的方法，其中，所述基于所述目标对象的描述语义，确定所述目标背景素材上每个所述文案显示区域内显示的对象文案信息，包括：将所述目标对象的描述语义和所述目标背景素材输入预先训练的文案确定模型，通过所述文案确定模型进行文案确定，输出所述目标背景素材上每个所述文案显示区域内显示的对象文案信息。 6.根据权利要求5所述的方法，其中，所述多模态语义理解模型和所述文案确定模型采用联合训练方式进行训练，其中，所述联合训练方式包括：获取多个训练样本，每个所述训练样本对应一个对象，且每个训练样本包括：多模态描述信息、设置有至少一个文案显示区域的背景素材、每个文案显示区域内显示的对象文案信息；将同一对象的多模态描述信息输入第一模型，并将所述第一模型的输出和同一对象的权　利　要　求　书 1/2 页 2 CN 115116063 A 2设置有至少一个文案显示区域的背景素材输入第二模型；以同一对象的每个文案显示区域内显示的对象文案信息作为标签，训练所述第一模型本身的参数和所述第二模型本身的参数，直至所述第二模型的输出收敛于或等于所述标签，则完成训练，所述第一模型训练得到所述多模态语义理解模型，所述第二模型训练得到所述文案确定模型。 7.根据权利要求1所述的方法，其中，所述方法还包括：将所述目标背景素材上每个所述文案显示区域内显示的对象文案信息添加到对应的文案显示区域内，生成带有对象文案信息的目标背景素材。 8.一种对象文案的确定装置，所述装置包括：第一获取单元，用于获取目标对象的多模态描述信息，所述多模态描述信息中每一种模态描述信息记录有所述目标对象的部分描述信息，且不同模态描述信息采用不同的数据存储格式存储；第二获取单元，用于获取所述目标对象的目标背景素材，所述目标背景素材上设置有至少一个文案显示区域；多模态语义理解单元，用于基于所述多模态描述信息，将每一种模态描述信息记录的所述目标对象的部分描述信息进行语义融合，得到所述目标对象的描述语义；文案确定单元，用于基于所述目标对象的描述语义，确定所述目标背景素材上每个所述文案显示区域内显示的对象文案信息。 9.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其中，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行如权利要求 1至7任一项所述对象文案的确定方法的步骤。 10.一种计算机可读存储介质，其中，所述计算机可读存储介质存储程序或指令，当所述程序或指令被至少一个计算装置运行时，使至少一个计算装置执行如权利要求1至7任一项所述对象文案的确定方法的步骤。 11.一种计算机程序产品，其中，该计算机程序产品包括计算机程序，该计算机程序存储在计算机可读存储介质中，计算机的至少一个处理器从存储介质读取并执行该计算机程序，使得计算机执行如权利要求1至7任一项所述对象文案的确定方法的步骤。权　利　要　求　书 2/2 页 3 CN 115116063 A 3

专利 对象文案的确定方法、装置、系统及计算机程序产品

专利对象文案的确定方法、装置、系统及计算机程序产品