ai绘画软件|ai绘画免费

【AI绘图工具】保持主题的一致性太难了?SSR-Encoder来了,通过文本和掩码(蒙版)保留主题的一致性,生成不同的场景图

AI绘画2024-06-25 03:26:25764

当前图像生成领域在主题驱动图像生成方面的挑战,特别是在精确选择和聚焦关键主题元素方面,非常困难。

由上海交通大学、小红书、北京邮电大学、卡内基梅隆大学、上海科技大学团队成员,提出了SSR-Encoder,一种新型架构,用于选择性地捕捉单个或多个参考图像中的任何主题。

一、SSR-Encoder工作原理及技术细节

SSR-Encoder的架构,包括两个关键组成部分:Token-to-Patch Aligner(T2P Aligner)和Detail-Preserving Subject Encoder。

1、Token-to-Patch Aligner (T2P Aligner):

目的:将文本查询(如描述)与图像中的特定区域对齐。

实现:通过两个可训练的线性投影层(WQ和WK),将文本查询的特征(zq)和图像的视觉特征(z0)转换到一个对齐的空间中。

对齐过程:通过计算文本查询和图像特征之间的相似性,生成一个注意力图(At2p),用于选择图像中与文本描述最相关的区域。

2、Detail-Preserving Subject Encoder:

目的:从参考图像中提取并保留主题的精细特征。

实现:使用预训练的CLIP视觉骨干网络提取图像表示,并通过多尺度视觉特征(zk)来捕捉不同尺度的细节。

细节保留:通过在不同尺度上应用线性投影(Vk = WVk · zk),并结合注意力图(At2p),计算出主题嵌入(cs)。

3、主题条件生成:

目的:利用主题嵌入(cs)和文本嵌入(ct)共同指导图像生成过程。

实现:在U-Net模型中添加并行的主题交叉注意力层,这些层独立于文本交叉注意力层,专门用于聚合主题嵌入。

4、Embedding Consistency Regularization Loss (Lreg):

目的:通过余弦相似度函数增强主题嵌入(cs)与查询文本嵌入(zq)之间的相似性。

实现:在训练过程中引入这个正则化损失,以提高文本和图像之间的对齐质量。

5、模型训练和推理:

训练数据:使用Laion 5B数据集,包含高质量的图像-文本对。

训练过程:模型在8个H800s GPU上进行训练,迭代1,000,000次,批次大小为16,学习率为1e-4。

推理:使用DDIM作为采样器,步长为30,指导尺度设置为7.5。

6、兼容性与适应性:

SSR-Encoder可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。

可以与ControlNets(如Canny、OpenPose等)兼容,并且可以适应各种额外的控制模块。

二、SSR-Encoder的主要功能和作用

1、选择性主题捕捉:

SSR-Encoder能够识别和聚焦于图像中的关键主题,如特定的人物、物体或场景,而忽略其他不相关的部分。

2、文本和图像对齐:

通过Token-to-Patch Aligner,SSR-Encoder可以将文本描述与图像中的特定区域对齐,确保生成的图像与文本描述高度一致。

3、细节保留:

使用Detail-Preserving Subject Encoder,SSR-Encoder能够提取并保留图像中的精细细节,使得生成的图像具有更高的视觉质量和真实感。

4、条件生成:

SSR-Encoder通过将主题嵌入与文本嵌入结合,指导图像生成过程,从而生成既符合文本描述又具有高主题一致性的图像。

5、模型通用性:

SSR-Encoder设计为通用模型,可以无缝集成到任何定制化的稳定扩散模型中,无需额外的测试时间微调。

6、控制生成:

SSR-Encoder支持可控生成,可以通过额外的控制模块(如ControlNets)来进一步定制生成的图像,如调整图像的布局、风格等。

7、无需微调:

SSR-Encoder的一个显著特点是在生成图像时不需要对基础模型进行微调,这大大减少了计算资源的需求和时间成本。

8、多主题生成:

SSR-Encoder能够处理多主题图像生成任务,即使在单个图像中存在多个主题,也能有效地分离和突出显示用户感兴趣的主题。

通过这些功能,SSR-Encoder能够在无需微调的情况下,根据用户的文本描述或掩模查询,生成高质量、主题明确、细节丰富的图像,这对于个性化内容创作、艺术设计、广告制作等领域具有重要价值。

三、可推广到视频生成模型

SSR编码器不仅用途广泛,可以适应各种自定义模型和可控性模块,而且可以有效地应用于视频生成,与视频生成模型无缝集成。

演示了将 SSR-Encoder 与 Animatediff 相结合的影响。尽管没有接受过视频数据的训练,但SSR-Encoder的方法可以与 Animatediff 完美地结合在一起,以生成与参考图像保持一致的角色身份的视频。

本文链接:https://ai-huihua.com.cn/aihuihua_114.html

AI绘图工具SSR-Encoder

相关文章

  • kk画廊ai绘画软件怎么使用

    kk画廊ai绘画软件怎么使用

    探索KK画廊AI绘画软件:解锁创造力的无限可能在数字艺术的浪潮中,AI绘画软件正逐渐成为艺术家和设计师们探索创意的新工具,KK画廊AI绘画软件以其独特的功能和用户友好的界面,吸引了全球创作者的目光,本...

  • 榴莲冰淇淋ai绘画

    榴莲冰淇淋ai绘画

    榴莲冰淇淋与AI绘画的奇妙融合:探索味觉与视觉的艺术之旅在艺术的世界里,创新总是层出不穷,近年来,随着人工智能技术的飞速发展,AI绘画已经成为艺术领域的一大热点,我们要探讨的是一个独特的主题——榴莲冰...

  • 吃鸡人物用ai绘画吗

    吃鸡人物用ai绘画吗

    “探索AI绘画技术:吃鸡游戏角色的数字化艺术之旅”在数字艺术的浪潮中,人工智能(AI)绘画技术正以其独特的魅力和创新能力,为游戏角色设计领域带来革命性的变化,特别是在“吃鸡”类游戏中,这些角色不仅仅是...

  • ai绘画生成动漫视频

    ai绘画生成动漫视频

    在数字艺术和创意产业的交汇点上,人工智能(AI)技术正以其独特的方式改变着艺术创作和娱乐内容的制作,AI绘画技术,尤其是在动漫视频制作领域的应用,已经成为一个引人注目的发展趋势,本文将探讨AI绘画如何...

  • a770显卡 AI绘画

    a770显卡 AI绘画

    NVIDIA GeForce RTX A770显卡:AI绘画的未来随着人工智能技术的飞速发展,AI绘画已经成为数字艺术领域的一股不可忽视的新力量,NVIDIA作为全球领先的GPU制造商,其最新一代的G...