ai绘画软件|ai绘画免费

【AI绘图工具】保持主题的一致性太难了?SSR-Encoder来了,通过文本和掩码(蒙版)保留主题的一致性,生成不同的场景图

AI绘画2024-06-25 03:26:25633

当前图像生成领域在主题驱动图像生成方面的挑战,特别是在精确选择和聚焦关键主题元素方面,非常困难。

由上海交通大学、小红书、北京邮电大学、卡内基梅隆大学、上海科技大学团队成员,提出了SSR-Encoder,一种新型架构,用于选择性地捕捉单个或多个参考图像中的任何主题。

一、SSR-Encoder工作原理及技术细节

SSR-Encoder的架构,包括两个关键组成部分:Token-to-Patch Aligner(T2P Aligner)和Detail-Preserving Subject Encoder。

1、Token-to-Patch Aligner (T2P Aligner):

目的:将文本查询(如描述)与图像中的特定区域对齐。

实现:通过两个可训练的线性投影层(WQ和WK),将文本查询的特征(zq)和图像的视觉特征(z0)转换到一个对齐的空间中。

对齐过程:通过计算文本查询和图像特征之间的相似性,生成一个注意力图(At2p),用于选择图像中与文本描述最相关的区域。

2、Detail-Preserving Subject Encoder:

目的:从参考图像中提取并保留主题的精细特征。

实现:使用预训练的CLIP视觉骨干网络提取图像表示,并通过多尺度视觉特征(zk)来捕捉不同尺度的细节。

细节保留:通过在不同尺度上应用线性投影(Vk = WVk · zk),并结合注意力图(At2p),计算出主题嵌入(cs)。

3、主题条件生成:

目的:利用主题嵌入(cs)和文本嵌入(ct)共同指导图像生成过程。

实现:在U-Net模型中添加并行的主题交叉注意力层,这些层独立于文本交叉注意力层,专门用于聚合主题嵌入。

4、Embedding Consistency Regularization Loss (Lreg):

目的:通过余弦相似度函数增强主题嵌入(cs)与查询文本嵌入(zq)之间的相似性。

实现:在训练过程中引入这个正则化损失,以提高文本和图像之间的对齐质量。

5、模型训练和推理:

训练数据:使用Laion 5B数据集,包含高质量的图像-文本对。

训练过程:模型在8个H800s GPU上进行训练,迭代1,000,000次,批次大小为16,学习率为1e-4。

推理:使用DDIM作为采样器,步长为30,指导尺度设置为7.5。

6、兼容性与适应性:

SSR-Encoder可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。

可以与ControlNets(如Canny、OpenPose等)兼容,并且可以适应各种额外的控制模块。

二、SSR-Encoder的主要功能和作用

1、选择性主题捕捉:

SSR-Encoder能够识别和聚焦于图像中的关键主题,如特定的人物、物体或场景,而忽略其他不相关的部分。

2、文本和图像对齐:

通过Token-to-Patch Aligner,SSR-Encoder可以将文本描述与图像中的特定区域对齐,确保生成的图像与文本描述高度一致。

3、细节保留:

使用Detail-Preserving Subject Encoder,SSR-Encoder能够提取并保留图像中的精细细节,使得生成的图像具有更高的视觉质量和真实感。

4、条件生成:

SSR-Encoder通过将主题嵌入与文本嵌入结合,指导图像生成过程,从而生成既符合文本描述又具有高主题一致性的图像。

5、模型通用性:

SSR-Encoder设计为通用模型,可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。

6、控制生成:

SSR-Encoder支持可控生成,可以通过额外的控制模块(如ControlNets)来进一步定制生成的图像,如调整图像的布局、风格等。

7、无需微调:

SSR-Encoder的一个显著特点是在生成图像时不需要对基础模型进行微调,这大大减少了计算资源的需求和时间成本。

8、多主题生成:

SSR-Encoder能够处理多主题图像生成任务,即使在单个图像中存在多个主题,也能有效地分离和突出显示用户感兴趣的主题。

通过这些功能,SSR-Encoder能够在无需微调的情况下,根据用户的文本描述或掩模查询,生成高质量、主题明确、细节丰富的图像,这对于个性化内容创作、艺术设计、广告制作等领域具有重要价值。

三、可推广到视频生成模型

SSR编码器不仅用途广泛,可以适应各种自定义模型和可控性模块,而且可以有效地应用于视频生成,与视频生成模型无缝集成。

演示了将 SSR-Encoder 与 Animatediff 相结合的影响。尽管没有接受过视频数据的训练,但SSR-Encoder的方法可以与 Animatediff 完美地结合在一起,以生成与参考图像保持一致的角色身份的视频。

本文链接:https://ai-huihua.com.cn/aihuihua_114.html

AI绘图工具SSR-Encoder

相关文章

  • ai绘画软件鬼畜

    ai绘画软件鬼畜

    AI绘画软件的鬼畜艺术:解锁创意新维度在数字艺术的浪潮中,AI绘画软件以其独特的能力和创意潜力,正逐渐成为艺术家和设计师探索新表达方式的工具,当这些智能工具被推向极限,它们产生的作品有时呈现出一种被称...

  • ai绘画戴眼镜短发图文

    ai绘画戴眼镜短发图文

    探索AI绘画:戴眼镜短发人物的艺术创作在数字艺术的浪潮中,AI绘画技术正以其独特的魅力和创新能力吸引着全球艺术爱好者的目光,我们将深入探讨AI如何将简单的关键词——“戴眼镜短发”——转化为一幅幅生动的...

  • ai绘画特效定义

    ai绘画特效定义

    《AI绘画特效:定义与革命性的艺术创新》在当今数字化时代,人工智能(AI)技术的发展正在不断地突破传统艺术创作的边界,AI绘画特效作为一种新兴的艺术形式,已经成为艺术家和设计师探索创意表达的新领域,本...

  • 阿狸ai绘画生成

    阿狸ai绘画生成

    阿狸AI绘画生成:艺术与技术的完美融合在数字时代,艺术创作的形式和边界不断被重新定义,随着人工智能技术的飞速发展,AI绘画生成器成为了艺术创作领域的一大革命,我们将深入探讨“阿狸AI绘画生成”这一现象...

  • ai 手机绘画软件

    ai 手机绘画软件

    掌握未来艺术:探索AI手机绘画软件的新境界在数字化时代,艺术创作不再局限于传统媒介,随着人工智能技术的飞速发展,AI手机绘画软件正逐渐改变我们对于艺术创作的认知和实践,这些软件不仅让绘画变得更加便捷,...