专利基于多模态融合的行为属性识别方法、装置及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210353474.9 (22)申请日 2022.04.01 (71)申请人浙江西图盟数字科技有限公司地址 310012 浙江省杭州市西湖区转塘街道山景路7号2幢3楼3 01室、 309室 (72)发明人郭成　王子剑　张杰　于兴林　林建瑞　康竞然　吴嵩波　张晨曦　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师黄盼 (51)Int.Cl. G06V 40/10(2022.01) G06V 40/20(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06N 20/10(2019.01) G06K 9/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) G10L 15/02(2006.01) G10L 15/16(2006.01) G10L 25/30(2013.01) G10L 25/51(2013.01) G10L 25/63(2013.01) (54)发明名称基于多模态融合的行为属性识别方法、装置及存储介质 (57)摘要本申请实施例提供的一种基于多模态融合的行为属性识别方法、装置及存储介质，识别方法包括获取待处理视频数据和待处理音频数据；待处理视频数据包括至少一个对象；根据待处理视频数据和待处理音频数据，确定对象的画像信息；根据待处理视频数据，确定对象的动作信息；根据待处理音频数据，确定对象的情绪信息和文本信息；基于画像信息、动作信息、情绪信息和文本信息，确定对象的行为属性。本申请实施例基于视频、语音和画像多模态融合识别对象的行为属性，可以降低误判率，提高对危险行为的识别准确性。权利要求书2页说明书12页附图8页 CN 114882522 A 2022.08.09 CN 114882522 A 1.一种基于多模态融合的行为属性识别方法，其特征在于，包括：获取待处理视频数据和待处理音频数据；所述待处理视频数据包括至少一个对象；根据所述待处理视频数据和所述待处理音频数据，确定所述对象的画像信息；根据所述待处理视频数据，确定所述对象的动作信息；根据所述待处理音频数据，确定所述对象的情绪信息和文本信息；基于所述画像信息、所述动作信息、所述情绪信息和所述文本信息，确定所述对象的行为属性。 2.根据权利要求1所述的方法，其特征在于，所述根据所述待处理视频数据和所述待处理音频数据，确定所述对象的画像信息，包括：从所述待处理视频数据中，确定所述对象的脸部数据；从所述待处理音频数据中，确定所述对象的语音特征数据；根据所述脸部数据和所述语音特征数据，确定所述对象的标签信息、年龄信息和性别信息；根据所述标签信息、所述年龄信息和所述性别信息，确定所述对象的画像信息。 3.根据权利要求1所述的方法，其特征在于，所述根据所述待处理视频数据，确定所述对象的动作信息，包括：从所述待处理视频数据的每帧视频数据中，确定所述对象对应的关节点集合；确定所述关节点集合中每个关节点的位置数据和置信度数据；根据所述每帧视频数据中所述每个关节点的位置数据和置信度数据，确定所述对象的动作信息。 4.根据权利要求1所述的方法，其特征在于，所述根据所述待处理音频数据，确定所述对象的情绪信息，包括：对所述待处理音频数据进行特征提取处理，得到语音特征向量序列；所述语音特征向量序列中相邻两个语音特性向量部分重合；确定所述语音特征向量序列中每个语音特征向量对应的注意力向量；将所述每个语音特征向量对应的注意力向量与所述每个语音特征向量进行拼接处理，得到带有注意力特性信息的语音特征向量序列；根据所述带有注意力特性信息的语音特征向量序列，确定所述对象的情绪信息。 5.根据权利要求1所述的方法，其特征在于，所述根据所述待处理音频数据，确定所述对象的情绪信息，包括：对所述待处理音频数据进行特征提取处理，得到第一语音特征向量和第二语音特征向量；所述第一语音特征向量和所述第二语音特征向量相邻，且部分重合；对所述第一语音特征向量进行特征提取处理，得到第一语音特征子向和第二语音特征子向量；对所述第二语音特征向量和所述第二语音特征子向量进行堆叠处理，得到堆叠语音特征向量；确定所述堆叠语音特征向量对应的注意力向量集合；根据所述第一语音特征子向量、所述堆叠语音特征向量和所述堆叠语音特征向量对应的注意力向量集合，确定第一注意力语音特征子向量和第二注意力语音特征子向量；权　利　要　求　书 1/2 页 2 CN 114882522 A 2根据所述第一注意力语音特征子向量和第二注意力语音特征子向量，确定所述对象的情绪信息。 6.根据权利要求1所述的方法，其特征在于，所述根据所述待处理音频数据，确定所述对象的文本信息，包括：对所述待处理音频数据进行特征提取处理，得到语音特征向量序列；所述语音特征向量序列中相邻两个语音特性向量部分重合；对所述语音特征向量序列进行语音识别处理，得到语句序列；从所述语句序列的每个语句中确定目标词语；根据所述语句序列的每个语句中的目标词语句，确定所述对象的文本信息。 7.根据权利要求1所述的方法，其特征在于，所述根据所述画像信息、所述动作信息、所述情绪信息和所述文本信息，确定所述对象的行为属性，包括：根据所述画像信息、所述动作信息、所述情绪信息、所述文本信息和第一属性信息，确定第一参数；根据所述画像信息、所述动作信息、所述情绪信息、所述文本信息和第二属性信息，确定第二参数；根据所述第一参数和所述第二参数，确定所述对象的行为属性。 8.一种基于多模态融合的行为属性识别装置，其特征在于，包括：获取模块，用于获取待处理视频数据和待处理音频数据；所述待处理视频数据包括至少一个对象；第一确定模块，用于根据所述待处理视频数据和所述待处理音频数据，确定所述对象的画像信息；第二确定模块，用于根据所述待处理视频数据，确定所述对象的动作信息；第三确定模块，用于根据所述待处理音频数据，确定所述对象的情绪信息和文本信息；第四确定模块，用于基于所述画像信息、所述动作信息、所述情绪信息和所述文本信息，确定所述对象的行为属性。 9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1 ‑7任意一项所述的基于多模态融合的行为属性识别方法。 10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求 1‑7任意一项所述的基于多模态融合的行为属性识别方法。权　利　要　求　书 2/2 页 3 CN 114882522 A 3

专利 基于多模态融合的行为属性识别方法、装置及存储介质

专利基于多模态融合的行为属性识别方法、装置及存储介质