ai绘画软件|ai绘画免费

【AI绘图工具】保持主题的一致性太难了?SSR-Encoder来了,通过文本和掩码(蒙版)保留主题的一致性,生成不同的场景图

AI绘画2024-06-25 03:26:25314

当前图像生成领域在主题驱动图像生成方面的挑战,特别是在精确选择和聚焦关键主题元素方面,非常困难。

由上海交通大学、小红书、北京邮电大学、卡内基梅隆大学、上海科技大学团队成员,提出了SSR-Encoder,一种新型架构,用于选择性地捕捉单个或多个参考图像中的任何主题。

一、SSR-Encoder工作原理及技术细节

SSR-Encoder的架构,包括两个关键组成部分:Token-to-Patch Aligner(T2P Aligner)和Detail-Preserving Subject Encoder。

1、Token-to-Patch Aligner (T2P Aligner):

目的:将文本查询(如描述)与图像中的特定区域对齐。

实现:通过两个可训练的线性投影层(WQ和WK),将文本查询的特征(zq)和图像的视觉特征(z0)转换到一个对齐的空间中。

对齐过程:通过计算文本查询和图像特征之间的相似性,生成一个注意力图(At2p),用于选择图像中与文本描述最相关的区域。

2、Detail-Preserving Subject Encoder:

目的:从参考图像中提取并保留主题的精细特征。

实现:使用预训练的CLIP视觉骨干网络提取图像表示,并通过多尺度视觉特征(zk)来捕捉不同尺度的细节。

细节保留:通过在不同尺度上应用线性投影(Vk = WVk · zk),并结合注意力图(At2p),计算出主题嵌入(cs)。

3、主题条件生成:

目的:利用主题嵌入(cs)和文本嵌入(ct)共同指导图像生成过程。

实现:在U-Net模型中添加并行的主题交叉注意力层,这些层独立于文本交叉注意力层,专门用于聚合主题嵌入。

4、Embedding Consistency Regularization Loss (Lreg):

目的:通过余弦相似度函数增强主题嵌入(cs)与查询文本嵌入(zq)之间的相似性。

实现:在训练过程中引入这个正则化损失,以提高文本和图像之间的对齐质量。

5、模型训练和推理:

训练数据:使用Laion 5B数据集,包含高质量的图像-文本对。

训练过程:模型在8个H800s GPU上进行训练,迭代1,000,000次,批次大小为16,学习率为1e-4。

推理:使用DDIM作为采样器,步长为30,指导尺度设置为7.5。

6、兼容性与适应性:

SSR-Encoder可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。

可以与ControlNets(如Canny、OpenPose等)兼容,并且可以适应各种额外的控制模块。

二、SSR-Encoder的主要功能和作用

1、选择性主题捕捉:

SSR-Encoder能够识别和聚焦于图像中的关键主题,如特定的人物、物体或场景,而忽略其他不相关的部分。

2、文本和图像对齐:

通过Token-to-Patch Aligner,SSR-Encoder可以将文本描述与图像中的特定区域对齐,确保生成的图像与文本描述高度一致。

3、细节保留:

使用Detail-Preserving Subject Encoder,SSR-Encoder能够提取并保留图像中的精细细节,使得生成的图像具有更高的视觉质量和真实感。

4、条件生成:

SSR-Encoder通过将主题嵌入与文本嵌入结合,指导图像生成过程,从而生成既符合文本描述又具有高主题一致性的图像。

5、模型通用性:

SSR-Encoder设计为通用模型,可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。

6、控制生成:

SSR-Encoder支持可控生成,可以通过额外的控制模块(如ControlNets)来进一步定制生成的图像,如调整图像的布局、风格等。

7、无需微调:

SSR-Encoder的一个显著特点是在生成图像时不需要对基础模型进行微调,这大大减少了计算资源的需求和时间成本。

8、多主题生成:

SSR-Encoder能够处理多主题图像生成任务,即使在单个图像中存在多个主题,也能有效地分离和突出显示用户感兴趣的主题。

通过这些功能,SSR-Encoder能够在无需微调的情况下,根据用户的文本描述或掩模查询,生成高质量、主题明确、细节丰富的图像,这对于个性化内容创作、艺术设计、广告制作等领域具有重要价值。

三、可推广到视频生成模型

SSR编码器不仅用途广泛,可以适应各种自定义模型和可控性模块,而且可以有效地应用于视频生成,与视频生成模型无缝集成。

演示了将 SSR-Encoder 与 Animatediff 相结合的影响。尽管没有接受过视频数据的训练,但SSR-Encoder的方法可以与 Animatediff 完美地结合在一起,以生成与参考图像保持一致的角色身份的视频。

本文链接:https://ai-huihua.com.cn/aihuihua_114.html

AI绘图工具SSR-Encoder

相关文章

  • 壁纸ai绘画情侣头像

    壁纸ai绘画情侣头像

    《AI绘画:创造个性化情侣壁纸与头像的艺术》在数字艺术的浪潮中,AI绘画技术以其独特的魅力和创新能力,逐渐成为艺术家和设计师们探索的新领域,这种技术不仅能够模拟传统绘画的风格,还能创造出前所未有的视觉...

  • ai绘画如何涨粉的图片

    ai绘画如何涨粉的图片

    《AI绘画:如何通过创意图片吸引粉丝》在数字艺术的浪潮中,AI绘画技术以其独特的创造力和效率吸引了众多艺术家和观众的注意,对于AI绘画创作者来说,如何利用这些技术制作出引人注目的图片,进而涨粉成为了一...

  • 卫衣女孩头像ai绘画

    卫衣女孩头像ai绘画

    《未来艺术:探索AI绘画技术下的卫衣女孩头像创作》在数字艺术的浪潮中,人工智能(AI)绘画技术正以其独特的魅力和创新性逐渐成为艺术创作的一个重要分支,我们将深入探讨这一领域,特别是AI在创作卫衣女孩头...

  • 牛批ai绘画

    牛批ai绘画

    牛批AI绘画:艺术与技术的革命性融合在数字时代,人工智能(AI)正以其惊人的速度和能力,颠覆着我们所知的各个领域,而在艺术领域,AI绘画的出现无疑是一场革命性的融合,将技术与创造力推向了新的高度,牛批...

  • ai绘画热门最近新闻

    ai绘画热门最近新闻

    在数字艺术的浪潮中,AI绘画技术正以前所未有的速度发展,成为艺术与科技交叉融合的新领域,AI绘画领域涌现出许多热门新闻和技术突破,这些进展不仅引起了艺术界的广泛关注,也预示着人工智能在艺术创作中的应用...