Magnific图像高清化工具,去年12月有送积分计划,你去做了吗?现在氪金太贵了!
今天分享一个与 magnific具有类似功能的图像高清化工具,SUPIR。
项目报告地址:https://arxiv.org/pdf/2401.13627.pdf
项目代码地址:https://github.com/Fanghua-Yu/SUPIR
项目演示地址:https://SUPIR.xpixel.group/
一、SUPIR概述
SUPIR(Scaling-UP Image Restoration)是一种创新图像恢复方法,它利用了生成先验和模型扩展的力量,显著提升了图像恢复的质量和智能化水平。
SUPIR通过收集包含详细描述性文本注释的2000万张高质量、高分辨率图像进行模型训练,使得模型能够根据文本提示进行图像恢复,从而拓宽了其应用范围和潜力。
此外,基于恢复引导的采样方法,以解决生成过程中的保真度问题。
实验结果表明,SUPIR在多种图像恢复任务中表现出色,尤其是在复杂和具有挑战性的现实世界场景中。模型还提供了通过文本提示灵活控制恢复过程的能力,极大地扩展了图像恢复的可能性。
二、SUPIR的主要框架和技术细节
1、模型架构设计:
大规模适配器(Large-Scale Adaptor):设计了一个适配器来引导SDXL模型进行图像恢复。适配器通过识别低质量(LQ)图像的内容,并在像素级别上精细控制生成过程。
退化鲁棒编码器(Degradation-Robust Encoder):为了使模型能够准确理解LQ图像内容,对SDXL的原始编码器进行了微调,以提高其对图像退化的鲁棒性。
2、生成先验(Generative Prior):
StableDiffusion-XL(SDXL):选择了SDXL作为生成先验,因为它直接生成高分辨率图像,且采用了Base-Refine策略,适合作为SUPIR的生成模型。
3、训练数据集:
大规模高分辨率图像:收集了2000万张高分辨率、高质量的图像,并附有描述性文本注释,为模型训练提供了坚实的基础。
负样本和负提示(Negative-Quality Samples and Prompts):为了提高图像质量,引入了负样本和负提示,通过分类器自由引导(CFG)技术来指定模型不生成低质量图像。
4、恢复引导采样(Restoration-Guided Sampling):
EDM采样器(EDM Sampler):修改了现有的EDM采样方法,提出了一种新的恢复引导采样方法,以确保生成的图像忠实于LQ图像。
零卷积连接器(ZeroSFT Connector):在适配器和SDXL之间引入了一个新的连接器,结合了零卷积和空间特征转移(SFT)操作,以增强IR过程中的控制。
5、多模态语言模型(Multi-Modal Language Model):
LLaVA模型:集成了一个13亿参数的多模态语言模型,用于提供图像内容提示,提高了方法的准确性和智能化水平。
三、SUPIR的实验结果
1、模型训练和采样设置:
训练数据:模型训练使用了2000万张高分辨率、高质量的图像,这些图像被裁剪成512×512的块进行训练。为了实现更大的批量大小,这些图像在训练时被裁剪。
训练过程:模型使用AdamW优化器,学习率为0.00001,训练时间大约为10天。训练过程中,模型通过合成退化模型生成低质量图像,并将其恢复到高分辨率。
采样设置:在测试阶段,模型能够处理1024×1024大小的图像。输入图像的短边被调整到1024像素,然后裁剪出一个1024×1024的子图像进行测试,最后再将结果缩放回原始大小。
2、与现有方法的比较:
合成数据比较:SUPIR与现有的图像恢复方法(如BSRGAN、Real-ESRGAN、StableSR、DiffBIR和PASD)进行了比较。这些方法在合成数据上进行了评估,包括单一退化和复杂混合退化的情况。
真实世界数据比较:SUPIR还在真实世界低质量图像上进行了测试,这些图像来自RealSR、DRealSR、Real47等数据集,以及在线资源。
3、文本提示对恢复效果的影响:
正面提示:SUPIR能够根据文本提示恢复图像中的特定细节,如自行车、帽子的材质纹理等。
负面提示:通过使用负面提示,模型能够避免生成低质量的图像特征,如油画效果、模糊、脏乱等。
4、控制恢复的文本提示:
提示策略:SUPIR采用了包含两部分的提示策略,一部分是LLaVA模型自动生成的详细图像描述,另一部分是标准化的正面质量描述。
提示的有效性:实验表明,正面提示和负面提示可以单独或同时使用来提高图像的感知质量。如果没有负面样本进行训练,这些提示将无法有效提高质量。
5、负样本和提示的影响:
负样本生成:为了解决训练数据中缺乏负面样本的问题,报告介绍了一种从SDXL模型中提取负面概念的方法,并通过图像到图像的方式生成负面样本。
负提示的局限性:在某些情况下,如果恢复目标缺乏清晰的语义定义,负面提示可能会引入伪影。
6、退化鲁棒编码器的有效性:
编码器比较:通过使用不同的编码器对低质量输入进行编码,然后解码,展示了退化鲁棒编码器(DR Encoder)的有效性。DR Encoder能够减少退化的影响,防止生成模型将伪影误解为图像内容。