【AI 图片工具】2024年AI绘画卷角色一致性,很多产品已经来了,这篇文章介绍了好几种获取AI 绘画角色一致性的方法。
今天再分享一个获取 AI 绘画角色一致性的工具,PhotoMaker,其具备更多其他功能。
项目地址:https://github.com/TencentARC/PhotoMaker
论文地址:https://arxiv.org/pdf/2312.04461.pdf
项目及演示:PhotoMaker
文本到图像生成的最新进展在合成基于给定文本提示的逼真人类照片方面取得了显着进展。然而,现有的个性化生成方法无法同时满足高效率、有前途的身份(ID)保真度和灵活的文本可控性等要求。
PhotoMaker,这是一种高效的个性化文本到图像生成方法,它主要将任意数量的输入ID图像编码到堆栈ID嵌入中,以保存ID信息。这样的嵌入,作为统一的ID表示,不仅可以全面封装同一输入ID的特征,还可以容纳不同ID的特征,以便后续集成。这为更有趣和更实用的应用铺平了道路。
此外,为了推动PhotoMaker的训练,提出了一个面向ID的数据构建管道来组装训练数据。在通过所提出的管道构建的数据集的滋养下,PhotoMaker表现出比基于测试时微调的方法更好的ID保存能力,同时提供了显着的速度改进,高质量的生成结果,强大的泛化能力和广泛的应用。
一、PhotoMaker的主要框架和技术细节
1、主要框架概述:
PhotoMaker是一个文本到图像的生成方法,它接收多个输入ID图像(Identity Images),并生成一个基于文本提示的新图像,同时保留输入ID的特征。
它通过堆叠ID嵌入(Stacked ID Embedding)来统一表示ID信息,这允许模型在生成过程中灵活地整合和调整ID特征。
2、堆叠ID嵌入(Stacked ID Embedding):
这是PhotoMaker的核心技术,它通过将多个输入ID图像的编码堆叠在一起,形成一个统一的ID表示。
每个输入ID图像的编码被融合成一个嵌入向量,这些向量在堆叠时保持了原始ID图像的特征。
堆叠ID嵌入可以被视为一个统一的ID表示,它包含了所有输入ID图像的特征,并且可以适应不同的ID图像数量。
3、ID导向的数据构建(ID-Oriented Data Construction):
为了训练PhotoMaker,提出了一个以ID为中心的数据构建流程,该流程能够构建一个包含大量ID的人类中心数据集。
数据集包含了多样化的视角、属性和场景,每个ID都有多个图像,这有助于模型更全面和准确地学习ID特征。
数据集的构建包括图像下载、人脸检测与过滤、ID验证、裁剪与分割、以及为每个图像生成描述性标题。
4、训练过程:
在训练过程中,PhotoMaker使用一个预训练的CLIP图像编码器来提取图像嵌入,以及CLIP文本编码器来提取文本嵌入。
通过将文本嵌入中的类别词(如“男人”、“女人”)替换为堆叠ID嵌入,模型能够在生成过程中适应性地整合ID信息。
训练数据的构造通过一个自动化管道完成,包括图像下载、人脸检测、ID验证、裁剪、分割和标题生成。
5、生成过程:
在推理阶段,PhotoMaker接受多个ID图像作为输入,这些图像可以来自同一ID或不同的ID。
通过调整堆叠ID嵌入中不同ID图像的比例,可以控制新生成ID的特征混合程度。
生成过程利用了扩散模型的交叉注意力机制,以适应性地整合ID信息。
6、应用:
PhotoMaker可以应用于多种场景,如改变人物的属性(如发型、服装)、将艺术作品或老照片中的人物带入现实、以及进行身份混合(如将两个不同人物的特征混合生成一个新的人物)。
7、评估:
使用了多种评估指标来衡量PhotoMaker的性能,包括ID保真度、文本一致性、生成质量、面部区域多样性等。
通过用户研究来评估生成图像的ID保真度、质量、多样性和文本一致性。
8、局限性:
PhotoMaker目前专注于单个生成人物的ID信息维护,不支持同时控制多个人物的ID。
在生成全身像方面表现不如半身像。
年龄变换的精确度不如某些基于GAN的方法。
9、伦理考虑:
报告强调了在开发和使用这种技术时需要考虑的伦理问题,包括防止不适当的图像使用、恶意图像篡改和虚假信息的传播。
二、PhotoMaker主要功能
1、根据输入图片重新语境化生成新图片
2、将艺术品/旧照片中的人带入现实
通过以艺术绘画、雕塑或人物的旧照片为输入,可以将上个世纪甚至古代的人带到本世纪为他们“拍摄”照片。
)
3、风格化
不仅具有生成逼真的人体照片的能力,而且还允许在保留ID属性的同时进行风格化。
4、更改年龄或性别
通过简单地替换类词(例如,男人和女人),可以在保持原始身份的同时实现性别和年龄的变化。
)
5、身份混合
如果用户提供不同ID的图像作为输入,可以很好地整合不同ID的特征,形成一个新的ID。
三、与其他方法的比较
与其他方法相比,PhotoMaker可以同时满足高质量和多样化的生成能力,具有可编辑性、高推理效率和强大的ID保真度。更多的比较结果可以在我们的论文中找到。我们在第二列显示条件提示。