专利一种目标识别的方法、装置及电子设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111635796.4 (22)申请日 2021.12.2 9 (71)申请人浙江大华技术股份有限公司地址 310053 浙江省杭州市滨江区滨安路 1187号 (72)发明人廖紫嫣　张姜　邸德宁　郝敬松　朱树磊　殷俊　 (74)专利代理机构北京同达信恒知识产权代理有限公司 1 1291 代理人潘平 (51)Int.Cl. G06V 20/40(2022.01) G06V 10/40(2022.01) G06V 10/80(2022.01) G06V 10/74(2022.01)G06K 9/62(2022.01) (54)发明名称一种目标识别的方法、装置及电子设备 (57)摘要本申请公开一种目标识别的方法、装置及电子设备，该方法包括提取待处理视频中目标对象的不同模态的多个特征，并确定所述待处理视频对应的参考特征，在这里，参考特征可以基于多个参考视频的特征确定，且参考视频为具有不同模态中至少一种模态的特征的视频，然后基于确定的参考特征，对待处理视频的多个特征进行融合，得到待处理视频的融合特征，再利用该融合特征，确定目标对象的识别结果。基于上述方法可以得到目标对象的不同模态的融合特征，解决现有技术因单一模态特征而导致识别目标识别准确率低的问题，进一步，结合参考特征来对提取的不同模态的特征进行融合，能够有效提升目标识别的准确率。权利要求书3页说明书16页附图4页 CN 114359796 A 2022.04.15 CN 114359796 A 1.一种目标识别的方法，其特征在于，所述方法包括：提取待处理视频中目标对象的不同模态的多个特征；确定所述待处理视频对应的参考特征；其中，所述参考特征基于多个参考视频的特征确定，所述参考视频为具有所述不同模态中至少一种模态的特征的视频；基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征；利用所述融合特征，确定所述目标对象的识别结果。 2.如权利要求1所述的方法，其特征在于，所述提取待处理视频中目标对象的不同模态的多个特征，包括：在待处理视频中提取出第一图像集合，对所述第一图像集合中的每张图像执行如下操作：计算单张图像与所述第一图像集合中的每张图像之间的相似度值，若所有相似度值都大于预设相似度阈值，则将所述单张图像添加到第二图像集合；在所述第二图像集合中，提取各张图像中目标对象的不同模态的特征；分别对从所述各张图像中提取的同一模态的多个特征进行加权求和，计算所述同一模态的一个特征，得到所述不同模态的多个特征；将计算得到的所述不同模态的多个特征作为所述待处理视频的不同模态的多个特征。 3.如权利要求2所述的方法，其特征在于，所述在所述待处理视频中提取出第一图像集合，包括：提取待处理视频中的多张图像作为第三图像集合，计算所述第三图像集合中各张图像的图像质量分数；提取所有大于预设阈值的图像质量分数对应的图像组成第一图像集合。 4.如权利要求1所述的方法，其特征在于，在所述提取待处理视频中目标对象的不同模态的多个特征之后，还包括：对所述待处理视频进行特征编码，得到所述待处理视频对应的视频特征；将所述视频特征逐一添加到所述多个特征的每个特征中，得到各个特征对应的编码特征，并将得到的多个编码特征作为所述待处理视频的多个特征。 5.如权利要求1所述的方法，其特征在于，所述确定所述待处理视频对应的参考特征，包括：分别计算所述多个特征中每个特征与预设视频中各个特征之间的相似度值，得到所述多个特征中每个特征的多个相似度值；按照所述相似度值的大小，对所述多个特征中每个特征的多个相似度值进行排列，并取排列在目标位置的相似度值对应的预设视频作为参考视频；提取各个参考视频中的所述不同模态的特征，并将提取出的特征作为所述待处理视频对应的参考特征。 6.如权利要求5所述的方法，其特征在于，所述提取各个参考视频中的所述不同模态的特征，并将提取出的特征作为所述待处理视频对应的参考特征，包括：判断各个参考视频中是否包含所述不同模态的缺失的特征；若否，则提取所述各个参考视频中所述不同模态的特征，并将提取出的特征作为所述权　利　要　求　书 1/3 页 2 CN 114359796 A 2待处理视频对应的参考特征；若是，则提取所述各个参考视频中所述不同模态的特征，并使用指定向量填充提取的缺失的特征，将所述不同模态的经过填充后的特征作为所述待处理视频对应的参考特征。 7.如权利要求1 ‑6任一项所述的方法，其特征在于，所述基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征，包括：确定由所述多个特征以及所述参考特征共同组成的特征矩阵；获取与所述特征矩阵对应的邻接矩阵；其中，所述邻接矩阵表征所述特征矩阵中不同特征之间进行融合的连接关系；通过对所述特征矩阵以及所述邻接矩阵进行聚合，得到所述待处理视频的融合特征。 8.如权利要求7所述的方法，其特征在于，所述获取所述特征矩阵对应的邻接矩阵，包括：确定所述多个特征中每个特征与所述特征矩阵中每个特征之间进行融合的连接系数；根据确定的连接系数，得到由所述确定的连接系数组成的邻接矩阵。 9.如权利要求7所述的方法，其特征在于，所述通过对所述特征矩阵以及所述邻接矩阵进行聚合，得到所述待处理视频的融合特征，包括：响应于所述特征矩阵中不存在缺失的参考特征，获取预设更新次数；通过图神经网络，对所述特征矩阵和所述邻接矩阵进行所述预设更新次数的聚合，得到所述特征矩阵更新后的目标特征矩阵；其中，所述目标特征矩阵由目标特征组成；在所述目标特征矩阵中，提取与所述多个特征对应的多个目标特征，并对所述多个目标特征进行融合，得到所述待处理视频的融合特征。 10.如权利要求7所述的方法，其特征在于，所述通过对所述特征矩阵以及所述邻接矩阵进行聚合，得到所述待处理视频的融合特征，包括：响应于所述特征矩阵中存在缺失的参考特征，在所述邻接矩阵中，将与所述缺失的参考特征相关的连接系数调整为指定数值；通过图神经网络，对所述特征矩阵和调整后的邻接矩阵进行预设更新次数的聚合，得到所述特征矩阵更新后的目标特征矩阵；根据预设的掩码矩阵与预设的缩放矩阵，对所述目标特征矩阵进行再更新，得到所述待处理视频的融合特征。 11.一种目标识别的装置，其特征在于，所述装置包括：提取模块，提取待处理视频中目标对象的不同模态的多个特征；确定模块，确定所述待处理视频对应的参考特征；其中，所述参考特征基于多个参考视频的特征确定，所述参考视频为具有所述不同模态中至少一种模态的特征的视频的特征；融合模块，基于所述参考特征，对所述待处理视频的所述多个特征进行融合，得到所述待处理视频的融合特征；识别模块，利用所述融合特征，确定所述目标对象的识别结果。 12.一种电子设备，其特征在于，包括：存储器，用于存放计算机程序；处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1 ‑10中任一项所述的方法步骤。权　利　要　求　书 2/3 页 3 CN 114359796 A 3

专利 一种目标识别的方法、装置及电子设备

专利一种目标识别的方法、装置及电子设备