超分辨率指标
超分辨率评价指标
根据评价方法,图像质量可以有多种定义,它通常是对人类的视觉属性和感知质量的一个度量。
现有的图像质量评价指标(image quality assessment, IQA)没有考虑评价超分结果的适用性,因此研究中需要采用大量的评价指标对超分结果进行评价,这对于比较不同超分辨率结果是不可行且不公平的。
图像评价指标可以分为主观(人类对于一张图像的感知是更自然和更高质量的)和客观(可以用数字计算图像质量的定量方法)。一般来说,超分辨率
客观图像质量评价指标可分为:全参考、半参考和无参考。在超分辨率的实际应用中,以全参考和无参考应用更为广泛。
全参考指标
PSNR
peak signal-to-noise ratio(PSNR),应用最为广泛的全参考图像质量评价指标,但是它与人类的感知相关性很低。在信息系统中是一种用于分析信号功率与噪声功率的测量技术,尤其是在图像中常常被用于图像压缩质量的定量衡量指标。在超分辨率中,PSNR表示参考图像和超分图像之间最大像素值的均方误差,也被称为幂图像失真噪声。给定一个最大像素值M、参考图像,t个像素,SR图像,峰值信噪比可以表示为:
其中M代表8比特的颜色深度,最大值是255。PSNR与参考图像、SR图像各个像素强度值有关,是一种基于像素值的图像度量。当超分图像与参考图像在整体视觉上不相似的情况下这种指标可能会带来误导。当该方法仍然被广泛用于图像比较,尤其是用于比较SR方法与之前已发表的方法。
彩色图像的MSE计算平均值。另一种方法是单独测量亮度或者灰度通道的PSNR指标值,因为与色度的变化相比,人眼对亮度的变化更敏感。
优缺点:
优点:
- 最常用的质量评估度量,因此,很容易实现与其余方法进行比较;
- 定量评价;
- 基于MSE,采用MSE的好处我个人认为是因为现有的大部分网络损失函数都以最小化MSE为主;
缺点:
- 指标是基于像素的,在某些情况下,两幅图像在视觉上不同的情况下,总体分数可能会产生误导,但PSNR仍然会很高;
- 该指标没有考虑任务有关图像的结构信息;
SSIM
人类的视觉感知在提取图像的结构信息上更有效率,而PSNR没有考虑图像的结构组成。结构相似性指数度量(structural similarity index metric, SSIM)比较图像内的对比度、亮度和结构细节来衡量图像间的结构相似性。
对于一张图像,有P个像素,对比度,亮度可以表示为图像强度的标准差和平均值,
给定参考图像第i个像素的值,基于对比度和亮度比较的参考图像与评估图像之间的指标为:
其中,这些量用于保证计算的稳定性,
归一化像素值表示图像结构,像素值之间的内积等价于参考图像与评估图像之间的结构相似性。协方差表示为:
结构相似度的比较指标为:
是一个稳定常数,最终结构相似度指数为:
其中用于在计算SSIM指标中控制亮度、对比度和结构指数的权重。
传统上,PSNR用于在计算机任务上进行评估,但SSIM是基于人类对图像中结构信息的感知,因此这种方法被广泛用于图像之间的结构相似性比较。在参考图像的方差或亮度较低的医学图像中,SSIM指标可能非常不稳定,会出现一些错误的报告结果。但在自然图像中并非如此。
SSIM,相较于PSNR从像素级别的误差评价,SSIM更注重于结构相似性。MS-SSIM、IW-SSIM分别从多尺度机制和信息内容权重上进行了改进。
优缺点:
优点:
- 继PSNR之后的最常用的IQA度量指标,因此,同样比较容易与其他方法进行比较;
- 根据评估图像与原始图像的结构相似性,对该图像进行定量评分,并能够改变亮度、对比度和结构比较的权重;
缺点:
- 在参考图像方差或者亮度较低的情况下,SSIM指标是不稳定的;因此,在医学成像中,这个度量指标可能会给出不一致的结果;
IFC是一种新的信息保真度指标;
VIF是IFC指标的一种改进,量化了两图像之间的交互信息;
FSIM结合了相位一致性和特征相似度的梯度幅度;
GMSD使用基于梯度的局部质量图的全局转换;
IGM采用自回归预测算法将图像分解成有序部分和无序部分进行单独的质量计算;
VSI使用视觉显著性用于计算局部质量图的特征和加权函数来获取最终的质量分数。
ESIM,受到人类视觉系统对边缘高度敏感的启发,提取三个显著的边缘特征,例如边缘对比度、边缘宽度、边缘方向评估图像内容。
GFM使用滤波器相应特征。
无参考指标:
无参考指标由于没有参考影像更具有挑战性。大部分现有的无参考指标都会经过两个步骤,首先从图像中提取质量相关的特征,然后使用回归工具将提取特征映射至客观得分中。因此,所有无参考指标的主要差别在于提取特征的不同。一些代表性的二阶段无参考评价指标包括GMLOG、BLIINDS-II、CurveletQA、BRISQUE、OG-IQA、SSEQ、DIIVINE、RISE、BMPRI、FRIQUEE等。但是这种二阶段评价指标需要训练;
NIQE、IL-NIQE、HVS-MaxPol不用训练。
主观评价指标
意见分数(opinion scoring):多位测试人员进行评价打分;
优缺点:
优点:
- 主观评价指标;
- 由于人的主观参考,该指标特别适用于评价人脸重建方法;
缺点:
- 指标结果受人的影响较大,测试人员之间的非线性评分、人为误差和测试参数的变化;
- 评分需要很多时间,特别是对于大型数据集;
感知质量(Perceptual quality):用深度学习的精度评估方法;
优缺点:
优点:
- 类似于意见评分,只不过是采用深度学习技术学习测试者行为的模型替代人类测试人员;
- 与意见评分相比,效率提升巨大;
缺点:
- 需要额外的资源来训练网络,学习用于质量评估网络的特征;
- 需要大量带标注的数据集;
基于任务的度量(Task-based evaluation):采用超分后的图像计算各种任务指标;
优缺点:
优点:
- 如果SR图像用于执行其余任务,例如目标检测、分类等,这种度量方式是十分合适的;
- 对于使用了SR图像的任务,有助于衡量整个任务的性能;
缺点:
- 高度依赖于SR图像在相关任务中的表现;
- 如果任务参数发生变化,相同的SR图像将会给出不同的分数;(这里我觉得要衡量的话肯定是得保证任务参数的一致性,没学过控制变量吗?这也能总结为人指标的缺点?)
参考资料
[1] Jiang, Q., Liu, Z., Gu, K., Shao, F., Zhang, X., Liu, H., & Lin, W. (2022). Single image super-resolution quality assessment: a real-world dataset, subjective studies, and an objective metric. IEEE Transactions on Image Processing, 31, 2279-2294.
[2] Bashir, S. M. A., Wang, Y., Khan, M., & Niu, Y. (2021). A comprehensive review of deep learning-based single image super-resolution. PeerJ Computer Science, 7, e621.
[3] Chen, H., He, X., Qing, L., Wu, Y., Ren, C., Sheriff, R. E., & Zhu, C. (2022). Real-world single image super-resolution: A brief review. Information Fusion, 79, 124-145.