当前图像生成领域在主题驱动图像生成方面的挑战,特别是在精确选择和聚焦关键主题元素方面,非常困难。
由上海交通大学、小红书、北京邮电大学、卡内基梅隆大学、上海科技大学团队成员,提出了SSR-Encoder,一种新型架构,用于选择性地捕捉单个或多个参考图像中的任何主题。
一、SSR-Encoder工作原理及技术细节
SSR-Encoder的架构,包括两个关键组成部分:Token-to-Patch Aligner(T2P Aligner)和Detail-Preserving Subject Encoder。
1、Token-to-Patch Aligner (T2P Aligner):
目的:将文本查询(如描述)与图像中的特定区域对齐。
实现:通过两个可训练的线性投影层(WQ和WK),将文本查询的特征(zq)和图像的视觉特征(z0)转换到一个对齐的空间中。
对齐过程:通过计算文本查询和图像特征之间的相似性,生成一个注意力图(At2p),用于选择图像中与文本描述最相关的区域。
2、Detail-Preserving Subject Encoder:
目的:从参考图像中提取并保留主题的精细特征。
实现:使用预训练的CLIP视觉骨干网络提取图像表示,并通过多尺度视觉特征(zk)来捕捉不同尺度的细节。
细节保留:通过在不同尺度上应用线性投影(Vk = WVk · zk),并结合注意力图(At2p),计算出主题嵌入(cs)。
3、主题条件生成:
目的:利用主题嵌入(cs)和文本嵌入(ct)共同指导图像生成过程。
实现:在U-Net模型中添加并行的主题交叉注意力层,这些层独立于文本交叉注意力层,专门用于聚合主题嵌入。
4、Embedding Consistency Regularization Loss (Lreg):
目的:通过余弦相似度函数增强主题嵌入(cs)与查询文本嵌入(zq)之间的相似性。
实现:在训练过程中引入这个正则化损失,以提高文本和图像之间的对齐质量。
5、模型训练和推理:
训练数据:使用Laion 5B数据集,包含高质量的图像-文本对。
训练过程:模型在8个H800s GPU上进行训练,迭代1,000,000次,批次大小为16,学习率为1e-4。
推理:使用DDIM作为采样器,步长为30,指导尺度设置为7.5。
6、兼容性与适应性:
SSR-Encoder可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。
可以与ControlNets(如Canny、OpenPose等)兼容,并且可以适应各种额外的控制模块。
二、SSR-Encoder的主要功能和作用
1、选择性主题捕捉:
SSR-Encoder能够识别和聚焦于图像中的关键主题,如特定的人物、物体或场景,而忽略其他不相关的部分。
2、文本和图像对齐:
通过Token-to-Patch Aligner,SSR-Encoder可以将文本描述与图像中的特定区域对齐,确保生成的图像与文本描述高度一致。
3、细节保留:
使用Detail-Preserving Subject Encoder,SSR-Encoder能够提取并保留图像中的精细细节,使得生成的图像具有更高的视觉质量和真实感。
4、条件生成:
SSR-Encoder通过将主题嵌入与文本嵌入结合,指导图像生成过程,从而生成既符合文本描述又具有高主题一致性的图像。
5、模型通用性:
SSR-Encoder设计为通用模型,可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。
6、控制生成:
SSR-Encoder支持可控生成,可以通过额外的控制模块(如ControlNets)来进一步定制生成的图像,如调整图像的布局、风格等。
7、无需微调:
SSR-Encoder的一个显著特点是在生成图像时不需要对基础模型进行微调,这大大减少了计算资源的需求和时间成本。
8、多主题生成:
SSR-Encoder能够处理多主题图像生成任务,即使在单个图像中存在多个主题,也能有效地分离和突出显示用户感兴趣的主题。
通过这些功能,SSR-Encoder能够在无需微调的情况下,根据用户的文本描述或掩模查询,生成高质量、主题明确、细节丰富的图像,这对于个性化内容创作、艺术设计、广告制作等领域具有重要价值。
三、可推广到视频生成模型
SSR编码器不仅用途广泛,可以适应各种自定义模型和可控性模块,而且可以有效地应用于视频生成,与视频生成模型无缝集成。
演示了将 SSR-Encoder 与 Animatediff 相结合的影响。尽管没有接受过视频数据的训练,但SSR-Encoder的方法可以与 Animatediff 完美地结合在一起,以生成与参考图像保持一致的角色身份的视频。