谷歌最近发布了自己的人工智能图像生成器 Imagen 的下一个版本。Imagen 2.0 能生成逼真的图像,我甚至都分不清真假了。
在本文中,我想将 Imagen 2 与 OpenAI 的另一款大型人工智能图像生成器 Dall-E 3 进行对比,看看它们都能做些什么。
在对比测试中,我将使用 Google 在其 Imagen 2 公告中发布的示例图片和 Dall-E 3 的 ChatGPT。
Let’s get started. 让我们开始吧。
A shot of a 32-year-old female, up and coming conservationist in a jungle; athletic with short, curly hair and a warm smile
拍摄一位 32 岁的女性,她是丛林中的新晋保护主义者;身材健美,短发卷曲,笑容温暖
很明显。Imagen 2 的图像看起来比 Dall-E 3 的图像更逼真,尤其是在皮肤纹理和头发细节方面,而人工智能图像生成器在这方面往往很吃力。
Small canvas oil painting of an orange on a chopping board. Light is passing through orange segments, casting an orange light across part of the chopping board. There is a blue and white cloth in the background. Caustics, bounce light, expressive brush strokes
小幅油画,描绘砧板上的橙子。光线穿过橙子片段,在砧板上投下橙色的光。背景是一块蓝白相间的布。烧焦、反弹光、富有表现力的笔触
左图的柔和色调带来了逼真的效果。但 Dall-E 3 对背景中的蓝白布做了更精确的表现。
The robin flew from his swinging spray of ivy on to the top of the wall and he opened his beak and sang a loud, lovely trill, merely to show off. Nothing in the world is quite as adorably lovely as a robin when he shows off — and they are nearly always doing it.
知更鸟从摇摆的常春藤花丛中飞到墙头上,它张开嘴巴,唱着响亮动听的颤音,只是为了炫耀自己。世界上没有什么比知更鸟炫耀时更可爱的了,它们几乎总是这样。
Imagen 2 在这一提示中描绘了一只栩栩如生的知更鸟,堪比国家地理杂志的照片。然而,Dall-E 3 的诠释给人更多的是奇思妙想和表现力,捕捉到了所描述的可爱本质。方法不同,但都令人印象深刻
A cup of strawberry yogurt with the word “Delicous” written on the side, sitting on a wooden tabletop. Next to the cup of yogurt is a plate with toast and a glass of orange juice.
木制桌面上放着一杯草莓酸奶,边上写着 "美味 "二字。酸奶杯旁边放着一个盘子,里面有烤面包和一杯橙汁。
这个例子显示了 Dall-E 3 文本生成功能的不一致,因为它没有包含提示中指定的酸奶杯上的 "美味 "细节。Imagen 2 在此表现准确。
An abstract logo representing intelligence for an enterprise AI platform, “Vertex AI” written under the logo.
代表企业人工智能平台智能的抽象徽标,徽标下方写有 "Vertex AI"。
好吧,这真的很酷。两个人工智能系统都出色地呈现了 "顶点人工智能 "文字。不过,Imagen 2 凭借其简约、专业的徽标设计,在企业平台上遥遥领先。两方面都做得很好。
A tube of toothpaste with the words “CYMBAL” written on it, on a bathroom counter, advertisement.
浴室柜台上的一管牙膏,上面写着 "CYMBAL",广告。
与上一个文本示例一样,令人惊讶的是,Dall-E 3 在输入正确的 "CYMBAL "品牌时非常吃力,而 Imagen 2 则表现准确。这表明 Dall-E 3 的文本生成能力不一致。
A mosaic-inspired portrait of a person, their features formed by a collection of small, colorful tiles.
这是一幅以马赛克为灵感的人物肖像,五颜六色的小瓷砖拼凑出人物的特征。
这两个人工智能工具都值得称赞--马赛克肖像的效果生动逼真。我个人更倾向于 Imagen 2 的构图,但两种解释都很有创意。
Isometric 3D rendering of a car driving in the countryside surrounded by trees, bright colors, puffy clouds overhead.
等距 3D 效果图,显示一辆汽车行驶在乡间小路上,周围树木繁茂,色彩鲜艳,头顶浮云缭绕。
Imagen 2》在 "一辆车 "这一点上做到了极致。而《Dall-E 3》则决定开一个拼车派对,把四辆车塞到了现场。另外,我喜欢 Imagen 2 鲜艳的色调和复古的魅力。
A jellyfish on a dark blue background
深蓝色背景上的水母
这是一个风格品味的问题--《Imagen 2》的水母达到了逼真的效果,而《Dall-E 3》则以插图的形式进行了更艺术化的演绎。你更喜欢哪一个?
An image of: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure
一个形象:想想大海的微妙;想想它最可怕的生物是如何在水底滑行的,它们大部分都不显眼,诡秘地隐藏在最可爱的蔚蓝色调之下
提示摘自赫尔曼-梅尔维尔的《白鲸记》。因此,Imagen 2 生成了一幅鲸鱼的抽象画。而 Dall-E 3 只是随机生成了一个水下场景。
从 Imagen 2 和 Dall-E 3 的图像结果来看,可以说前者生成的图像更真实、更一致。