说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202211011200.8 (22)申请日 2022.08.23 (71)申请人 天津大学 地址 300072 天津市南 开区卫津路9 2号 (72)发明人 袁冯 潘兆庆 武泽煦 雷建军  彭勃 沈丽丽  (74)专利代理 机构 天津市北洋 有限责任专利代 理事务所 12 201 专利代理师 刘国威 (51)Int.Cl. G06V 10/764(2022.01) G06V 10/766(2022.01) G06V 10/82(2022.01) G06V 10/80(2022.01) G06V 10/774(2022.01)G06V 10/776(2022.01) (54)发明名称 内容引导与自注意力真实失真盲参考图像 质量评价方法 (57)摘要 本发明属于多媒体处理技术领域, 为提出一 种基于内容引导与自注意力机制的真实失真盲 参考图像质量评价方法, 提升网络对真实失真的 感知能力, 本发明采取的技术方案是, 内容引导 与自注意力真实失真盲参考图像质量评价方法, 在EfficientNet ‑B0网络的基础上引入线 性映射 模块从而构建内容理解网络; 构建内容引导自注 意力网络以调节图像中不同区域的失真权重; 构 造双支路质量预测网络, 将内容引导自注意力网 络得到的失真特征与内容特征进行融合与映射 得到质量分数。 本发明主要应用于多媒体处理场 合。 权利要求书2页 说明书7页 附图2页 CN 115222996 A 2022.10.21 CN 115222996 A 1.一种内容引导与自注意力真实失真盲参考图像质量评价方法, 其特征是, 在 EfficientNet ‑B0网络的基础上引入线性映射模块从而构建内容理解网络; 构建内容引导 自注意力网络以调节图像中不同区域的失真权重; 构造双支路质量预测网络, 将 内容引导 自注意力网络得到的失真特 征与内容特 征进行融合与映射得到质量分数。 2.如权利要求1所述的内容引 导与自注意力真实失真盲参考图像质量评价方法, 其特 征是, 具体步骤如下: (1)在EfficientNet ‑B0网络的基础上引入线性映射模块从而构建内容理解网络; (2)构建内容引导自注意力网络以调节图像中不同区域的失真权重, 并进一步提取经 过权重调节后的失真特 征与内容特 征; (3)构造双支路质量预测网络, 分别将失真特征与内容特征进行融合与映射得到质量 分数; (4)将失真图像与内容理解网络提取到的不同尺度的内容特征输入到内容引导自注意 力网络, 并使用(3)构造的质量回归网络与内容引导自注意力网络相连从而构造面向真实 失真的盲参 考图像质量评价网络; (5)选择并处理用于验证(4)中面向真实失真的盲参考图像质量评价网络的失真质量 评价数据集; (6)对所述的盲参考图像质量评价网络进行训练, 得到最优的盲参考图像质量评价网 络参数。 3.如权利要求2所述的内容引 导与自注意力真实失真盲参考图像质量评价方法, 其特 征是, 内容理解网络由基于EfficientNet ‑B0的骨干架构和线性映射模块构成, 在内容理解 网络中, 图像输入到EfficientNet ‑B0中提取图像不同尺度的内容特征, 并将提取的不同尺 度内容特征输入到线性投影模块中得到尺度一致的向量, 线性投影模块由1个3 ×3卷积、 1 个1×1卷积、 1个平均池化、 1个全连接层串联组成。 4.如权利要求2所述的内容引 导与自注意力真实失真盲参考图像质量评价方法, 其特 征是, 内容引导自注意力网络包括内容引导位置模块和自注意力编码器, 内容引导位置模 块由1个平均池化、 2 个全连接层、 1个线性整 流函数ReLU(Rectified  Linear Unit)激活层、 1个S型函数(Sigmoid)激活层 组成, 自注意力编码器的输入是将内容理解网络输出的内容 特征以及经 过内容引导 位置模块输出的失真特 征合并得到的。 5.如权利要求2所述的内容引 导与自注意力真实失真盲参考图像质量评价方法, 其特 征是, 质量预测网络包括一条失真特征回归网络, 一条内容特征回归网络, 失真特征回归网 络由平均池化以及三个全连接层串联构成; 内容特 征回归网络由三个全连接层串联构成。 6.如权利要求2所述的内容引 导与自注意力真实失真盲参考图像质量评价方法, 其特 征是, 使用平均绝对误差作为其损失函数从而计算预测分数与平均意见得分之间的损失, 随后通过反向传播机制更新网络参数, 直到测试集的斯皮尔曼秩相关系数SROCC达到最高 时终止训练, 为了优化网络参数, 使用适应性矩估计Adam优化 算法作为优化器。 7.如权利要求2所述的内容引 导与自注意力真实失真盲参考图像质量评价方法, 其特 征是, 内容引导自注意力网络由一个分块&变化操作和4个内容引导自注意力编 码器串联构 成, 分块&变换将一个尺寸为H ×W×3的失真图像 分割成n个尺 寸为m×m的失真块, 之后通过 变化将尺寸为m ×m的失真块转变为向量, 内容引导自注意力网络包括一个内容引导位置模权 利 要 求 书 1/2 页 2 CN 115222996 A 2块, 一个自注意力编码器; 内容理解网络中输出的向量被定义为内容令牌fcon∈Rd, 通过分 块&变换操作得到的向量被定义为失真令牌fdis∈Rd, 共n个失真令牌被拼接为失真令牌序 列Fdis∈Rn×d, 在内容引导位置模块中, 失真令牌序列Fdis与内容令牌fcon进行点乘, 之后使用 2个全连接模块计算不同位置的失真令牌相对于内容令牌的权重得分, 第1个全连接模块包 括1个全局平均池化、 1个全连接层、 1个ReLU激活函数; 第2个全连接模块包括1个全连接层 和一个Sigmoid激活函数, 权重 分数再与输入的失真令牌序列相乘得到加权失真令牌, 内容 引导位置模块总体过程被定义 为: Fdot=fcon⊙Fdis, fweight=Avgpool(Fdis), Fwdis=Sigmoid(FC(ReLU(FC(fweight))))⊙Fdis, 其中, FC代 表全连接层, Avgpo ol代表平均池化, Fwdis代表加权失真令牌序列; 为加强特征分析, 设置1个自注意力编码器进一步提取内容特征和失真特征, 首先, 内 容令牌置 于失真令牌序列进行拼接从而得到自注意力编码器的输入, 该 过程为: Finput=[fcon,Fdis]∈R(n+1)×d; 自注意力编码器由一个多头自注意力和一个前馈多层感知器组成, 前馈多层感知器由 两个全连接层组成, 多头 自注意力和前馈多层感知器都包括残差连接和层归一化, 自注意 力编码器的运 算过程表述 为: Fout=Fres_MHSA+MLP(Fres_MHSA), 其中, MHSA()代表多头自注意力机制; MLP()代表前馈多层感知器; 代表经过 自注意力编码器特征提取后的内容编码令牌; 代表经过自注意力编码器特征提 取后的失真编码令牌序列。 8.如权利要求2所述的内容引 导与自注意力真实失真盲参考图像质量评价方法, 其特 征是, 质量预测网络中, 将通过内容引导自注意力网络提取到的内容编码令牌与失真编码 令牌序列作为双支路质量预测网络的输入, 质量预测网络包括内容预测支路和失真预测支 路, 其中内容预测支路包括3层 全连接层, 通过内容预测支路对内容编码令牌进 行回归得到 内容分数scon, 失真预测支路包括 1层平均池化以及3层 全连接层, 通过失真预测支路对失真 编码令牌序列进行回归得到失真分数sdis, 最后将内容分数scon与失真分数sdis求平均得到 最终的图像质量分数s, s=0.5*(scon+sdis) 通过并联的操作, 将内容理解网络中的MB2_Conv3层、 MB2_Conv4层、 MB2_Conv6层、 Conv9层提取到的4层特征通过线性映射模块重新映射为4个内容向量, 并将其分别输入到 内容引导自注意力网络中的4个内容引导自注意力编码器中, 将经过内容引导自注意力编 码器特征提取得到的不同内容编码令牌进 行拼接, 同时将失真图像输入到内容引导自注意 力网络中进行特征提取并将提取到的失真编码令牌序列进 行拼接, 最后分别将拼接后的内 容编码令牌与拼接后的失真编 码令牌序列输入到步骤三构 造的质量预测网络中, 从而输出 最终的预测值。权 利 要 求 书 2/2 页 3 CN 115222996 A 3

.PDF文档 专利 内容引导与自注意力真实失真盲参考图像质量评价方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 内容引导与自注意力真实失真盲参考图像质量评价方法 第 1 页 专利 内容引导与自注意力真实失真盲参考图像质量评价方法 第 2 页 专利 内容引导与自注意力真实失真盲参考图像质量评价方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:13:33上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。