Midjourney V6神图炸出!生图效果碾压DALL·E3,逼真画面光影细节登峰造极

2023-12-23
兵贵神速,Midjourney V6昨天上午说要来,下午就真来了。神图纷纷炸出,光影效果登峰造极,主打一个「你能说我就能画」,擅长写Prompt的朋友,你们有福了!

编者按:本文来自微信公众号 新智元(ID:AI_era),编辑:编辑部,创业邦经授权转载。

猝不及防的,Midjourney V6昨天下午忽然发布了!

虽然已经预告了是这两天,但谁也没想到Midjourney的手速居然这么快,赶在圣诞节前让大家尝尝鲜。

图片

在/settings的下拉菜单中选择V6,或者在Prompt后输入 --v 6,就可以用上V6 Beta版模型了!

图片

激动的网友们蜂拥而入,出炉了一大波测评。比起V5,V6真的是疯狂加细节,画面质量史诗级增强。

图片

根据MJ官方介绍,V6的主要变化,就是图像质量更好、语义理解更强、能嵌入英文单词、更容纳更多token了。

举个例子,下面这两张超人和蝙蝠侠的「剧照」,要不是背景里的「V6 is here」的提示,几乎已经分辨不出来到底是实拍还是出自AI。

图片

图片

以前被诟病最多的「一眼AI」,也在V6上达到了几乎「以AI乱真」的地步。

有网友表示:Midjourney V5到V6的升级,堪称是一次里程碑,意义堪比Stable Diffusion出现高清重绘。

图片

除了图像模型的大提升之外,V6最大的变化,就在于提示词系统几乎重做了。

图片

用户很可能需要重新学习怎么写提示词,需要尽量避免之前「语焉不详的描述」,例如「award winning」这类形容词。

之所以会这样,是因为在以前,模型没办法完全反映提示词的要求,写太详细也没用。但是升级之后,图片会尽可能地遵循提示词中每一个词,所以用户也要珍惜提示词的空间,尽可能地详细描述自己想要的内容。

总之一句话就是,「只要你能说得清楚,V6就能给你画明白。」

图片

网友用Midjourney V6来想象「如果史蒂夫·乔布斯今天还活着,他会是什么样子」,结果令人震惊

这位网友表示:如果说这是生成式AI创造的图像,没人会相信我。

图片

它已经达到了电影级别的质量。这一领域的创意,比如电影、照片、海报和杂志,从此很可能由AI主导。

图片

另一位网友表示,MJ V6太逼真了,你可以直接用它想象你最爱的演员在电影中的样子,比如Jared Leto在Netflix《最后的沙皇》中的扮相。

图片

图片

图片

神图纷纷出现,图像质量史诗级提升

里程碑级的升级,究竟体现在了哪些地方?

一位网友用同样的Prompt来测试了V6和V5.2,可以看出,V6的提升体现在多处细节上。(上V6,下V5.2)

雨坑中日落的倒影,V6的光影效果明显比V5.2更自然,V5.2的加工痕迹要更明显。

图片

图片

reflection of a sunset in a rain puddle

仔细观看可以发现,同样的女性面部主体,V6在皮肤细节、毛发细节、光影效果上,都远优于V5.2的效果。

图片

图片

1940年代复古科幻电影中身穿高领银色操作衣的女操作员,V6生图明显要比V5.2更加真实。

V5.2的图片主体人物显得过于呆板,不像真人。

图片

1940s retro sci-fi film, medium side-angle shot of a young female control panel operator wearing a form-fitting silver jumpsuit with a high collar. She is surrounded by 3 art deco robots. warm glowing buttons and switches, soft illumination

下面这两幅食物的图片都很诱人,但是V6的色彩和光影还是要更胜一筹。

图片

图片

a pot of stew with a wooden spoon, top-down perspective

在生成「二次元」风格的口袋妖怪时,V6生成的效果神似动漫,而V5.2会画得更像个摆拍的手办。

图片

图片

frozen squirtle on the top of a snowy mountain 35mm film still of a detective

超强语义理解,Prompt说啥就画啥

如果说在以前,视觉效果和美学表现都足够震撼的Midjourney,为何风头时常不及DALL-E 3和Adobe Firefly,那自然是因为对于Prompt的高要求,吓退了众多「语死早」的用户。

并且,V5.2糟糕的语义理解,也经常让生图结果是「虽然美丽但不实用」。

而如今的V6,让Midjourney对于语气增强的理解,终于追上了竞家的脚步。比起V5.2,V6大大增强了语义理解的能力,对于Prompt的把握也更加精准。

写着「open late」霓虹灯标志的酒吧,V6就原样生出来了,V5.2的字样根本就不对。

而且从光影效果来看,V6也要更丰富更真实,就像给图片开了光追一样。

图片

图片

a corner bar with a neon sign that says "open late"

这张1960年代的街头风格照片,需要画出一位年轻女子穿着绿色丝绸连衣裙、戴着珍珠项链坐在帆船上。

显然,V6对于「珍珠项链」的理解要比V5.2好很多,而且除了人物主体之外,V6的周边细节也更合理精细。

图片

1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200

「1980年代的悬疑电影,仰拍,身穿黑西装的法国管家在维多利亚式豪宅的走廊中手握蜡烛。」

从光影和构图来看,V6更符合要求,主体人物很好地融合进了背景里。而V5.2基本都没有做到。

图片

1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery

下面这幅要求画出抽象、超现实的景观,有融化的时钟、扭曲的形状和浮岛,空中有一只眼镜形状的巨大月亮。

其中,V6在空中画出了「A large, eye-shaped moon dominates the sky」,而V5.2就没有把这部分体现出来。

图片

An abstract, surreal landscape with melting clocks, distorted shapes, and floating islands. The color palette is vibrant with a mix of blues, reds, and greens. A large, eye-shaped moon dominates the sky

这张1970年代的柯达Ektachrome电影剧照,需要画出身穿深V绿色丝绸连体裤的25岁红发女子。但V5.2并没有把我们要求的深V领口画出来。

图片

图片

1970s medium-closeup Ektachrome film still of a 25-year-old woman with curly red hair and freckles standing in front of vintage car in downtown Los Angeles. She's wearing a green silk jumpsuit with a plunging neckline. Golden hour

「五颜六色的珊瑚礁,各种各样的海洋生物,包括各种鱼、海龟和顽皮的海豚」。

这次,V5.2直接把海豚无视掉了,并自作主张地画了一个潜水员……

图片

A colorful coral reef teeming with marine life. There are various species of fish, a sea turtle, and a playful dolphin. Sunlight filters through the water, creating a dappled effect on the sea floor.

「1980年代的间谍电影,年轻的黑发女人站在埃及装饰风格的豪宅中,有着黑色大理石柱子。」

显然,V6对于黑色大理石柱等背景的还原,要比V5.2准确得多。

图片

1980s spy movie, Medium closeup shot from low-angle, 35mm film still of a young brunette Egyptian woman standing in an Egyptian Art Deco Mansion with large columns made of black marble, wearing a black sequin dress, inside, daytime, natural lighting

「电影剧照,一名侦探在犯罪现场采访一名女性证人,侦探在做笔录,目击者焦急地看着,指着一条线索。」

可以看到,V6的人物动作更加符合常理,而V5.2的图片中人物动作像是在发呆,没有按照提示词的描述进行做笔录的行为。

图片

interviewing a female witness at a crime scene. The detective is taking notes, while the witness looks on anxiously, pointing towards a clue

就如同开头所说,「只要你能说得清楚,V6就能给你画明白。」

如果你是个想象力大师,可以用逻辑结构清晰、充满细节的语言描绘出心中所想,V6定不会让你失望——语言可以控制光影、控制材质、控制色彩、控制构图。

一句话,语言的魔力已经被放至最大:能写出神级Prompt的人,必得神图。

而相比之下,有ChatGPT加持的DALL-E 3,就不这么苛求用户的语言表达能力,而是可以自行想象。

难怪大家都说,Midjourney的上限足够高,DALL-E 3的下限足够低。

文字生成,直追SOTA

在文字生成上,V6较前代也有了巨大的提升。

EMPTY、TOMORROW、Coca Cola,这些字在图像中想加就加。

虽然在准确度上略逊于DALL·E 3,但视觉美感方面的表现,Midjourney依旧是遥遥领先。

不过需要注意的是,下面这些图像,每一张都进行了3-10次的尝试,才得了到比较理想的结果。

图片

A man standing alone in a dark empty area, staring at a neon sign that says "EMPTY"

图片

A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "ORGANIC SNACKS" featured prominently

图片

An anime style movie poster with the stylized words "TOMORROW", with a girl looking upwards at the night sky, and cherry blossoms floating in the wind. --s 200

图片

A Coca Cola ad, featuring a beverage can design with traditional Hawaiian patterns

图片

A clean, minimalistic logo featuring an ice cream cone, with palm trees as the backdrop and the words "ICE CREAM OASIS" --style raw

图片

A clean and minimalistic professionally designed vector of a biker speeding on a highway, with the words "FREEDOM ON WHEELS" --s 250

图片

A minimalistic product shot of a bottle of perfume on a clean backdrop with the words "Floral Symphony", surrounded by fragrant white flowers

图片

A modern cinematic movie poster with the words "FALLEN" showing a fallen angel in a dark forest --style raw --s 200

图片

A modern burger advertisement, with the words "THE BIG ONE", featuring a delicious huge beef burger, with tomatoes and lettuce in the background

图片

A pixar style illustration of a happy hedgehog, standing beside a wooden signboard saying "SUNFLOWERS", in a meadow surrounded by blooming sunflowers

这里,我们汇总了一些可以提高生成准确率的实用技巧:

1. 将单词大写并放在引号中,如「LIKE THIS」,可以提高生成的准确度

2. 使用--style raw参数,可以得到更准确的结果

3. 明确提出是电影海报(movie poster)和广告(advertisement),效果更好

4. 高stylize值可以创造出更有趣的文字效果

三大AI生图巨头pk,谁能胜出?

所以,现在AI生图工具的三大巨头,无疑就是Midjourney V6、DALL·E 3和Adobe Firefly了。

网友们当然迫不及待地让三巨头展开了一场大pk,对同一主题生图,一目了然地拼个高下。

Midjourney因为有着非常丰富的光影效果,有极强的真实感,几乎没有了原先那种「一眼AI」的感觉。

同样画一个年轻女人,MJ打在脸上的光影效果让人震撼,人物的眼神在传达着某种情绪,整个画面都充满了电影感和故事感。

相比之下,另外两个女人美则美矣,眼神却略显空洞。

图片

金发粉色衣服的美女,MJ画的美女骨相耐看,衣服很仙。

果然,Midjourney画的美女,永远是最好看的。

图片

蓝莓蛋糕,MJ也是赢得很彻底。相比之下,DALL·E 3的AI感还是太重了,一眼假。

图片

「一对白发苍苍的老人」这道题,MJ的作品太动人了,一张照片仿佛包含了一生的故事。

图片

机甲战士三家都画得不多,MJ的背景虚化显然是做得最好的。

图片

雪中樱花的背景,MJ又一次完胜。

图片

同样是金发美女,三张图构图不同,侧重点也不同。要论故事感,还是MJ完胜。

图片

拿着相机的美女,后面是起火的建筑。MJ的人物情绪是对的,Adobe Firefly画的美女笑得就太没心没肺了,DALL·E 3的人物和背景太剥离,光线太假。

图片

总之,虽然大家对于AI生图的评价标准各有不同的,但可以笃定地说,在艺术性和创意的触感上,Midjourney V6这一轮是妥妥地赢了。

做对比图的博主说,Midjourney现在是,并且可能永远是自己的最爱。就是因为它,自己才进入了这个AI艺术社区。

图片

这位网友表示,在审美上,MJ把两位对手远远甩在了后面。

图片

这位网友指出,Adobe Firefly的优点就是,让图像看起来如此逼真,以至于你可以直接上传社交媒体。

相比之下,MJ的对比度更高,更倾向于添加光影。

图片

本文为专栏作者授权创业邦发表,版权归原作者所有。文章系作者个人观点,不代表创业邦立场,转载请联系原作者。如有任何疑问,请联系editor@cyzone.cn。