专利内容引导与自注意力真实失真盲参考图像质量评价方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211011200.8 (22)申请日 2022.08.23 (71)申请人天津大学地址 300072 天津市南开区卫津路9 2号 (72)发明人袁冯　潘兆庆　武泽煦　雷建军　彭勃　沈丽丽　 (74)专利代理机构天津市北洋有限责任专利代理事务所 12 201 专利代理师刘国威 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01)G06V 10/776(2022.01) (54)发明名称内容引导与自注意力真实失真盲参考图像质量评价方法 (57)摘要本发明属于多媒体处理技术领域，为提出一种基于内容引导与自注意力机制的真实失真盲参考图像质量评价方法，提升网络对真实失真的感知能力，本发明采取的技术方案是，内容引导与自注意力真实失真盲参考图像质量评价方法，在EfficientNet ‑B0网络的基础上引入线性映射模块从而构建内容理解网络；构建内容引导自注意力网络以调节图像中不同区域的失真权重；构造双支路质量预测网络，将内容引导自注意力网络得到的失真特征与内容特征进行融合与映射得到质量分数。本发明主要应用于多媒体处理场合。权利要求书2页说明书7页附图2页 CN 115222996 A 2022.10.21 CN 115222996 A 1.一种内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，在 EfficientNet ‑B0网络的基础上引入线性映射模块从而构建内容理解网络；构建内容引导自注意力网络以调节图像中不同区域的失真权重；构造双支路质量预测网络，将内容引导自注意力网络得到的失真特征与内容特征进行融合与映射得到质量分数。 2.如权利要求1所述的内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，具体步骤如下： (1)在EfficientNet ‑B0网络的基础上引入线性映射模块从而构建内容理解网络； (2)构建内容引导自注意力网络以调节图像中不同区域的失真权重，并进一步提取经过权重调节后的失真特征与内容特征； (3)构造双支路质量预测网络，分别将失真特征与内容特征进行融合与映射得到质量分数； (4)将失真图像与内容理解网络提取到的不同尺度的内容特征输入到内容引导自注意力网络，并使用(3)构造的质量回归网络与内容引导自注意力网络相连从而构造面向真实失真的盲参考图像质量评价网络； (5)选择并处理用于验证(4)中面向真实失真的盲参考图像质量评价网络的失真质量评价数据集； (6)对所述的盲参考图像质量评价网络进行训练，得到最优的盲参考图像质量评价网络参数。 3.如权利要求2所述的内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，内容理解网络由基于EfficientNet ‑B0的骨干架构和线性映射模块构成，在内容理解网络中，图像输入到EfficientNet ‑B0中提取图像不同尺度的内容特征，并将提取的不同尺度内容特征输入到线性投影模块中得到尺度一致的向量，线性投影模块由1个3 ×3卷积、 1 个1×1卷积、 1个平均池化、 1个全连接层串联组成。 4.如权利要求2所述的内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，内容引导自注意力网络包括内容引导位置模块和自注意力编码器，内容引导位置模块由1个平均池化、 2 个全连接层、 1个线性整流函数ReLU(Rectified Linear Unit)激活层、 1个S型函数(Sigmoid)激活层组成，自注意力编码器的输入是将内容理解网络输出的内容特征以及经过内容引导位置模块输出的失真特征合并得到的。 5.如权利要求2所述的内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，质量预测网络包括一条失真特征回归网络，一条内容特征回归网络，失真特征回归网络由平均池化以及三个全连接层串联构成；内容特征回归网络由三个全连接层串联构成。 6.如权利要求2所述的内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，使用平均绝对误差作为其损失函数从而计算预测分数与平均意见得分之间的损失，随后通过反向传播机制更新网络参数，直到测试集的斯皮尔曼秩相关系数SROCC达到最高时终止训练，为了优化网络参数，使用适应性矩估计Adam优化算法作为优化器。 7.如权利要求2所述的内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，内容引导自注意力网络由一个分块&变化操作和4个内容引导自注意力编码器串联构成，分块&变换将一个尺寸为H ×W×3的失真图像分割成n个尺寸为m×m的失真块，之后通过变化将尺寸为m ×m的失真块转变为向量，内容引导自注意力网络包括一个内容引导位置模权　利　要　求　书 1/2 页 2 CN 115222996 A 2块，一个自注意力编码器；内容理解网络中输出的向量被定义为内容令牌fcon∈Rd，通过分块&变换操作得到的向量被定义为失真令牌fdis∈Rd，共n个失真令牌被拼接为失真令牌序列Fdis∈Rn×d，在内容引导位置模块中，失真令牌序列Fdis与内容令牌fcon进行点乘，之后使用 2个全连接模块计算不同位置的失真令牌相对于内容令牌的权重得分，第1个全连接模块包括1个全局平均池化、 1个全连接层、 1个ReLU激活函数；第2个全连接模块包括1个全连接层和一个Sigmoid激活函数，权重分数再与输入的失真令牌序列相乘得到加权失真令牌，内容引导位置模块总体过程被定义为： Fdot＝fcon⊙Fdis, fweight＝Avgpool(Fdis), Fwdis＝Sigmoid(FC(ReLU(FC(fweight))))⊙Fdis, 其中， FC代表全连接层， Avgpo ol代表平均池化， Fwdis代表加权失真令牌序列；为加强特征分析，设置1个自注意力编码器进一步提取内容特征和失真特征，首先，内容令牌置于失真令牌序列进行拼接从而得到自注意力编码器的输入，该过程为： Finput＝[fcon,Fdis]∈R(n+1)×d；自注意力编码器由一个多头自注意力和一个前馈多层感知器组成，前馈多层感知器由两个全连接层组成，多头自注意力和前馈多层感知器都包括残差连接和层归一化，自注意力编码器的运算过程表述为： Fout＝Fres_MHSA+MLP(Fres_MHSA), 其中， MHSA()代表多头自注意力机制； MLP()代表前馈多层感知器；代表经过自注意力编码器特征提取后的内容编码令牌；代表经过自注意力编码器特征提取后的失真编码令牌序列。 8.如权利要求2所述的内容引导与自注意力真实失真盲参考图像质量评价方法，其特征是，质量预测网络中，将通过内容引导自注意力网络提取到的内容编码令牌与失真编码令牌序列作为双支路质量预测网络的输入，质量预测网络包括内容预测支路和失真预测支路，其中内容预测支路包括3层全连接层，通过内容预测支路对内容编码令牌进行回归得到内容分数scon，失真预测支路包括 1层平均池化以及3层全连接层，通过失真预测支路对失真编码令牌序列进行回归得到失真分数sdis，最后将内容分数scon与失真分数sdis求平均得到最终的图像质量分数s， s＝0.5*(scon+sdis) 通过并联的操作，将内容理解网络中的MB2_Conv3层、 MB2_Conv4层、 MB2_Conv6层、 Conv9层提取到的4层特征通过线性映射模块重新映射为4个内容向量，并将其分别输入到内容引导自注意力网络中的4个内容引导自注意力编码器中，将经过内容引导自注意力编码器特征提取得到的不同内容编码令牌进行拼接，同时将失真图像输入到内容引导自注意力网络中进行特征提取并将提取到的失真编码令牌序列进行拼接，最后分别将拼接后的内容编码令牌与拼接后的失真编码令牌序列输入到步骤三构造的质量预测网络中，从而输出最终的预测值。权　利　要　求　书 2/2 页 3 CN 115222996 A 3

专利 内容引导与自注意力真实失真盲参考图像质量评价方法

专利内容引导与自注意力真实失真盲参考图像质量评价方法