专利一种基于量子启发的多任务多模态微表情识别系统

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210476248.X (22)申请日 2022.04.29 (71)申请人哈尔滨理工大学地址 150080 黑龙江省哈尔滨市南岗区学府路52号 (72)发明人刘宇鹏　冯贤杰　 (74)专利代理机构哈尔滨市松花江专利商标事务所 23109 专利代理师张换男 (51)Int.Cl. G06V 40/16(2022.01) G06N 3/08(2006.01) G06V 10/764(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称一种基于量子启发的多任务多模态微表情识别系统 (57)摘要一种基于量子启发的多任务多模态微表情识别系统，它属于微表情识别技术领域。本发明解决了现有方法不能从视频中识别出多模态信息，导致采用现有方法对微表情识别的准确率低的问题。本发明提出基于文本特征向量、人脸特征向量和语音特征向量引入每种模态的上下文注意力权重，有助于学习文本、人脸和音频的上下文信息，同时捕捉与情感密切相关的特征。设计的量子启发Attention机制利用交互注意力将其中一个模态的信息关联到另一个模态，整合不同模态信息，使每个单独模态可以拥有其他模态的信息，获得更丰富的特征。通过对多模态信息进行获取和处理，可以提高对微表情识别的准确率。本发明方法可以应用于微表情识别。权利要求书3页说明书9页附图5页 CN 114842533 A 2022.08.02 CN 114842533 A 1.一种基于量子启发的多任务多模态微表情识别系统，其特征在于，所述系统包括视频获取模块、模态数据处理模块、双向GRU神经网络模型、量子启发交互Attention模型、特征拼接模块、第一预测模块和第二预测模块；其中：所述视频获取模块用于获取视频，并从获取的视频中分割出文本、图像和语音三种模态数据；所述模态数据处理模块用于对各模态数据进行处理，分别构建出文本特征向量、人脸特征向量和语音特征向量；所述双向GRU神经网络模型用于根据文本特征向量、人脸特征向量和语音特征向量分别提取各模态数据的时序特征；所述量子启发交互Attention模型用于将文本模态数据的时序特征和图像模态数据的时序特征进行特征融合，得到特征融合结果maLV；还用于将文本模态数据的时序特征和语音模态数据的时序特征进行特征融合，得到特征融合结果maLA；还用于将图像模态数据的时序特征和语音模态数据的时序特征进行特征融合，得到特征融合结果maVA；所述特征拼接模块用于对maLV、 maLA和maVA进行拼接，获得拼接后的特征MA； MA＝concat(maLV,maVA,maLA) 其中， concat()为张量的列拼接；所述第一预测模块用于根据拼接后特征MA进行预测，获得第一预测模块的输出结果；所述第二预测模块用于根据拼接后特征MA进行预测，获得第二预测模块的输出结果；再根据第一预测模块的输出结果和第二预测模块的输出结果获得微表情识别结果。 2.根据权利要求1所述的一种基于量子启发的多任务多模态微表情识别系统，其特征在于，所述文本特征向量利用文本预训练模型gl ove构建。 3.根据权利要求2所述的一种基于量子启发的多任务多模态微表情识别系统，其特征在于，所述人脸特征向量利用Facet工具构建。 4.根据权利要求3所述的一种基于量子启发的多任务多模态微表情识别系统，其特征在于，所述语音特征向量利用音频分析处理工具COV AREP构建。 5.根据权利要求4所述的一种基于量子启发的多任务多模态微表情识别系统，其特征在于，所述双向GRU神经网络模型的工作过程为：双向GRU神经网络模型的前向传播方式为： rt＝σ(wr·[ht‑1,xt]) zt＝σ(wz·[ht‑1,xt]) 其中， σ 为sigmoid激活函数， wr、 wz和为权重矩阵， ht‑1表示上一时刻的输出， rt为重置门， zt为更新门， *表示矩阵元素相乘， [ ]表示矩阵的连接，为前向传播的输出， xt表示当前时刻的输入， xt∈{xL,xV,xA}， xL表示文本特征向量， xV表示人脸特征向量， xA表示语音特征向量；为中间变量；双向GRU神经网络模型的后向传播方式为： r′t＝σ(wr·[ht+1,xt])权　利　要　求　书 1/3 页 2 CN 114842533 A 2z′t＝σ(wz·[ht+1,xt]) 其中， ht+1表示下一时刻的输出， z ′t和r′t分别为更新门和重置门，为后向传播的输出；为中间变量；则双向GRU神经网络模型的输出为：其中， ht表示当前时刻的输出，表示和的连接结果。 6.根据权利要求5所述的一种基于量子启发的多任务多模态微表情识别系统，其特征在于，所述量子启发交互Attention模型的工作过程为：所述量子启发交互Attention模型包括第一量子启发Attention子模块和第二量子启发Attention子模块；将第一量子启发A ttention子模块表示为： |mα×β>＝CNOT(H(|qα>),H(|kβ>)) |nα×β>＝softmax(|mα×β>) |oα×β>＝CNOT(H(|nα×β>),H(|vβ>)) |aα×β>＝multiply(|oα×β>,|qα>) 式中， |qα>为α 模态的query， |kβ>为β 模态的key， |vβ>为β 模态的value， |qi>、 |ki>和|vi> 分别为|qα>、 |kβ>和|vβ>的第i条线路的量子态编码， n为线路的条数， |ni>为|nα×β>的第i条线路的量子态编码， |oi>为|oα×β>的第i条线路的量子态编码， ci、 di、 ei、 gi、 ki分别为|qα>、 | kβ>、 |vβ>、 |nα×β>、 |oα×β>的第i条线路的系数， CNOT()是对两个量子比特进行作用的门； softmax()为softmax激活函数； H()为Hadamard门电路， multip y(a,b)表示矩阵a和b的元素进行相乘，表示求克罗内克积；将第二量子启发A ttention子模块表示为： |mβ×α>＝CNOT(H(|qβ>),H(|kα>)) |nβ×α>＝Softmax(|mβ×α>)权　利　要　求　书 2/3 页 3 CN 114842533 A 3

专利 一种基于量子启发的多任务多模态微表情识别系统

专利一种基于量子启发的多任务多模态微表情识别系统