专利对象情绪的分析方法、装置和电子设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210574835.2 (22)申请日 2022.05.24 (71)申请人网易（杭州）网络有限公司地址 310000 浙江省杭州市滨江区长河街道网商路59 9号4幢7层 (72)发明人张唯　邱锋　曾豪　王苏振　张智勐　马博文　安入东　丁彧　吕唐杰　范长杰　胡志鹏　 (74)专利代理机构北京市京大律师事务所 11321 专利代理师何少岩 (51)Int.Cl. G06V 40/16(2022.01) G06V 10/80(2022.01) G06V 20/40(2022.01) (54)发明名称对象情绪的分析方法、装置和电子设备 (57)摘要本发明提供了一种对象情绪的分析方法、装置和电子设备；其中，该方法包括：从目标对象相关联的多媒体数据中提取静态面部特征和动态特征；动态特征包括表情变化特征、声音特征和语言内容特征中的一种或多种；将静态面部特征和动态特征输入至预先训练完成的对象情绪分析模型中，通过对象情绪分析模型对静态面部特征和动态特征进行特征融合处理，进而输出情绪分析结果。该方式对静态面部特征和动态特征进行特征融合处理，由于动态特征中也包含表征情绪的特征信息，因而静态面部特征结合动态特征进行情绪分析，可以在一定程度上降低静态面部特征中的干扰特征对情绪分析结果的影响，强化表征情绪的特征信息的作用，从而提高了情绪分析结果的准确性。权利要求书3页说明书21页附图4页 CN 115171176 A 2022.10.11 CN 115171176 A 1.一种对象情绪的分析方法，其特征在于，所述方法包括：获取与目标对象相关联的多媒体数据，从所述多媒体数据中提取所述目标对象的静态面部特征和动态特征；其中，所述动态特征包括所述目标对象的表情变化特征、声音特征和语言内容特征中的一种或多种；将所述静态面部特征和所述动态特征输入至预先训练完成的对象情绪分析模型中，通过所述对象情绪分析模型对所述静态面部特征和所述动态特征进行特征融合处理，得到融合特征；基于所述融合特征输出所述目标对象的情绪分析结果。 2.根据权利要求1所述的方法，其特征在于，从所述多媒体数据中提取所述目标对象的动态特征的步骤，包括：如果所述动态特征中包括所述表情变化特征，从所述多媒体数据中的视频数据中，获取指定的视频帧序列；其中，在所述视频帧序列中，所述目标对象的表情动态变化；通过预先训练完成的表情特征提取模型，从所述视频帧序列提取所述目标对象的表情变化特征。 3.根据权利要求1所述的方法，其特征在于，从所述多媒体数据中提取所述目标对象的动态特征的步骤，包括：如果所述动态特征中包括所述声音特征，从所述多媒体数据中的音频数据中，获取指定的音频序列；其中，所述音频序列中包括所述目标对象发出的声音信号；通过预先训练完成的声音特征提取模型，从所述音频序列中提取所述目标对象的声音特征；其中，所述声音特征包括频率特征、音调特征、音高特征和能量特征中的一种或多种。 4.根据权利要求1所述的方法，其特征在于，从所述多媒体数据中提取所述目标对象的动态特征的步骤，包括：如果所述动态特征中包括所述语言内容特征，从所述多媒体数据中的字幕数据和/或音频数据中，获取所述目标对象的语言内容文本；通过预先训练完成的语言内容特征提取模型，从所述语言内容文本中提取所述目标对象的语言内容特征；其中，所述语言内容特征用于：表征所述目标对象发出的语言的语言含义。 5.根据权利要求1所述的方法，其特征在于，所述对象情绪分析模型中包括至少一个动态特征处理模块，所述动态特征处理模块用于输入对应类型的所述动态特征；所述通过所述对象情绪分析模型对所述静态面部特征和所述动态特征进行特征融合处理，得到融合特征的步骤，包括：针对所述动态特征处理模块，将所述动态特征处理模块对应的动态特征，以及所述目标对象的静态面部特征输入至所述动态特征处理模块；通过所述动态特征提取模块中的注意力网络对所述静态面部特征和所述动态特征进行特征融合处理，得到融合特征；其中，所述融合特征中包括：所述静态面部特征和所述动态特征之间表征情绪的共同关键特征。 6.根据权利要求5所述的方法，其特征在于，将所述动态特征处理模块对应的动态特征，以及所述目标对象的静态面部特征输入至所述动态特征处理模块的步骤之前，所述方法还包括：将所述动态特征输入至时序模型中，输出所述动态特征的上下文特征；其中，所述上下权　利　要　求　书 1/3 页 2 CN 115171176 A 2文特征用于：表征所述动态特征中特征随时间的变化趋势；在所述上下文特征中添加时序位置信息，将添加有所述时序位置信息的所述上下文特征，确定为待输入至所述动态特征提取模块的动态特征；其中，所述时序位置信息用于：指示所述上下文特征中特征在时序上的先后位置。 7.根据权利要求5所述的方法，其特征在于，所述动态特征处理模块中的注意力网络包括自注意力网络和交叉注意力网络；所述通过所述动态特征提取模块中的注意力网络对所述静态面部特征和所述动态特征进行特征融合处理，得到融合特征的步骤，包括：对所述动态特征进行变换处理，得到所述自注意力网络的第一输入参数，将所述第一输入参数输入至所述自注意力网络中，输出所述动态特征的中间特征；其中，所述中间特征用于：表征所述动态特征的自相关性；基于所述中间特征确定所述交叉注意力网络的第二输入参数，基于所述静态面部特征确定所述交叉注意力网络的第三输入参数，将所述第二输入参数和所述第三输入参数输入至所述交叉注意力网络，得到输出结果，基于所述输出结果确定所述融合特征。 8.根据权利要求7所述的方法，其特征在于，所述基于所述中间特征确定所述交叉注意力网络的第二输入参数的步骤，包括：将所述中间特征和所述动态特征进行第一融合处理，得到第一融合结果；对所述第一融合结果进行变换处理，得到所述交叉注意力网络的第二输入参数。 9.根据权利要求7所述的方法，其特征在于，基于所述静态面部特征确定所述交叉注意力网络的第三输入参数的步骤，包括：对所述静态面部特征进行变换处理，得到所述交叉注意力网络的第三输入参数。 10.根据权利要求7所述的方法，其特征在于，基于所述输出结果确定所述融合特征的步骤，包括：将所述输出结果和所述第二输入参数对应的第一融合结果进行第二融合处理，得到所述第二融合结果；其中，所述第二输入参数通过所述第一融合结果进行变换处理后得到；将所述第二融合结果输入至预设的第一多层感知机中，通过所述第一多层感知机对所述第二融合结果进行映射处理，得到映射结果；将所述映射结果和所述第二融合结果进行第三融合处理，得到所述融合特征。 11.根据权利要求1所述的方法，其特征在于，所述对象情绪分析模型中包括多个动态特征处理模块，所述动态特征处理模块用于输入对应类型的所述动态特征，并输出所述动态特征对应的融合特征；所述基于所述融合特征输出所述目标对象的情绪分析结果的步骤，包括：将所述动态特征处理模块输出的融合特征，以及所述静态面部特征进行拼接处理，得到拼接特征；将所述拼接特征输入至预设的第二多层感知机中，输出所述目标对象的情绪分析结果。 12.根据权利要求11所述的方法，其特征在于，所述第二多层感知机包括多个分支网络；所述将所述拼接特征输入至预设的第二多层感知机中，输出所述目标对象的情绪分析结果的步骤，包括：权　利　要　求　书 2/3 页 3 CN 115171176 A 3

专利 对象情绪的分析方法、装置和电子设备

专利对象情绪的分析方法、装置和电子设备