兵貴神速,Midjourney V6昨天上午說要來,下午就真來了。神圖紛紛炸出,光影效果登峰造極,主打一個「你能說我就能畫」,擅長寫Prompt的朋友,你們有福了!
原文來源:新智元
圖片來源:由無界 AI生成
猝不及防的,Midjourney V6昨天下午忽然發(fā)布了!
雖然已經(jīng)預(yù)告了是這兩天,但誰也沒想到Midjourney的手速居然這么快,趕在圣誕節(jié)前讓大家嘗嘗鮮。
在/settings的下拉菜單中選擇V6,或者在Prompt后輸入 --v 6,就可以用上V6 Beta版模型了!
激動的網(wǎng)友們蜂擁而入,出爐了一大波測評。比起V5,V6真的是瘋狂加細(xì)節(jié),畫面質(zhì)量史詩級增強(qiáng)。
根據(jù)MJ官方介紹,V6的主要變化,就是圖像質(zhì)量更好、語義理解更強(qiáng)、能嵌入英文單詞、更容納更多token了。
舉個例子,下面這兩張超人和蝙蝠俠的「劇照」,要不是背景里的「V6 is here」的提示,幾乎已經(jīng)分辨不出來到底是實拍還是出自AI。
以前被詬病最多的「一眼AI」,也在V6上達(dá)到了幾乎「以AI亂真」的地步。
有網(wǎng)友表示:Midjourney V5到V6的升級,堪稱是一次里程碑,意義堪比Stable Diffusion出現(xiàn)高清重繪。
除了圖像模型的大提升之外,V6最大的變化,就在于提示詞系統(tǒng)幾乎重做了。
用戶很可能需要重新學(xué)習(xí)怎么寫提示詞,需要盡量避免之前「語焉不詳?shù)拿枋觥?,例如「award winning」這類形容詞。
之所以會這樣,是因為在以前,模型沒辦法完全反映提示詞的要求,寫太詳細(xì)也沒用。但是升級之后,圖片會盡可能地遵循提示詞中每一個詞,所以用戶也要珍惜提示詞的空間,盡可能地詳細(xì)描述自己想要的內(nèi)容。
總之一句話就是,「只要你能說得清楚,V6就能給你畫明白。」
網(wǎng)友用Midjourney V6來想象「如果史蒂夫·喬布斯今天還活著,他會是什么樣子」,結(jié)果令人震驚這位網(wǎng)友表示:如果說這是生成式AI創(chuàng)造的圖像,沒人會相信我。
它已經(jīng)達(dá)到了電影級別的質(zhì)量。這一領(lǐng)域的創(chuàng)意,比如電影、照片、海報和雜志,從此很可能由AI主導(dǎo)。
另一位網(wǎng)友表示,MJ V6太逼真了,你可以直接用它想象你最愛的演員在電影中的樣子,比如Jared Leto在Netflix《最后的沙皇》中的扮相。
神圖紛紛出現(xiàn),圖像質(zhì)量史詩級提升
里程碑級的升級,究竟體現(xiàn)在了哪些地方?
一位網(wǎng)友用同樣的Prompt來測試了V6和V5.2,可以看出,V6的提升體現(xiàn)在多處細(xì)節(jié)上。(上V6,下V5.2)
雨坑中日落的倒影,V6的光影效果明顯比V5.2更自然,V5.2的加工痕跡要更明顯。
reflection of a sunset in a rain puddle
仔細(xì)觀看可以發(fā)現(xiàn),同樣的女性面部主體,V6在皮膚細(xì)節(jié)、毛發(fā)細(xì)節(jié)、光影效果上,都遠(yuǎn)優(yōu)于V5.2的效果。
1940年代復(fù)古科幻電影中身穿高領(lǐng)銀色操作衣的女操作員,V6生圖明顯要比V5.2更加真實。
V5.2的圖片主體人物顯得過于呆板,不像真人。
1940s retro sci-fi film, medium side-angle shot of a young female control panel operator wearing a form-fitting silver jumpsuit with a high collar. She is surrounded by 3 art deco robots. warm glowing buttons and switches, soft illumination
下面這兩幅食物的圖片都很誘人,但是V6的色彩和光影還是要更勝一籌。
a pot of stew with a wooden spoon, top-down perspective
在生成「二次元」風(fēng)格的口袋妖怪時,V6生成的效果神似動漫,而V5.2會畫得更像個擺拍的手辦。
frozen squirtle on the top of a snowy mountain 35mm film still of a detective
超強(qiáng)語義理解,Prompt說啥就畫啥
如果說在以前,視覺效果和美學(xué)表現(xiàn)都足夠震撼的Midjourney,為何風(fēng)頭時常不及DALL-E 3和Adobe Firefly,那自然是因為對于Prompt的高要求,嚇退了眾多「語死早」的用戶。
并且,V5.2糟糕的語義理解,也經(jīng)常讓生圖結(jié)果是「雖然美麗但不實用」。
而如今的V6,讓Midjourney對于語氣增強(qiáng)的理解,終于追上了競家的腳步。比起V5.2,V6大大增強(qiáng)了語義理解的能力,對于Prompt的把握也更加精準(zhǔn)。
寫著「open late」霓虹燈標(biāo)志的酒吧,V6就原樣生出來了,V5.2的字樣根本就不對。
而且從光影效果來看,V6也要更豐富更真實,就像給圖片開了光追一樣。
a corner bar with a neon sign that says "open late"
這張1960年代的街頭風(fēng)格照片,需要畫出一位年輕女子穿著綠色絲綢連衣裙、戴著珍珠項鏈坐在帆船上。
顯然,V6對于「珍珠項鏈」的理解要比V5.2好很多,而且除了人物主體之外,V6的周邊細(xì)節(jié)也更合理精細(xì)。
1960s street style photo of a young woman sitting on a sailboat wearing a green silk dress and a pearl necklace. The sun is setting over the ocean, shot on Agfa Vista 200
「1980年代的懸疑電影,仰拍,身穿黑西裝的法國管家在維多利亞式豪宅的走廊中手握蠟燭。」
從光影和構(gòu)圖來看,V6更符合要求,主體人物很好地融合進(jìn)了背景里。而V5.2基本都沒有做到。
1980s mystery film, low-angle shot of an evil-eyed French Butler sporting a black suit and grasping a candle in the hallway of a creepy Victorian mansion with musty decor. The warm candle glow evokes a spooky sense of mystery
下面這幅要求畫出抽象、超現(xiàn)實的景觀,有融化的時鐘、扭曲的形狀和浮島,空中有一只眼鏡形狀的巨大月亮。
其中,V6在空中畫出了「A large, eye-shaped moon dominates the sky」,而V5.2就沒有把這部分體現(xiàn)出來。
An abstract, surreal landscape with melting clocks, distorted shapes, and floating islands. The color palette is vibrant with a mix of blues, reds, and greens. A large, eye-shaped moon dominates the sky
這張1970年代的柯達(dá)Ektachrome電影劇照,需要畫出身穿深V綠色絲綢連體褲的25歲紅發(fā)女子。但V5.2并沒有把我們要求的深V領(lǐng)口畫出來。
1970s medium-closeup Ektachrome film still of a 25-year-old woman with curly red hair and freckles standing in front of vintage car in downtown Los Angeles. She's wearing a green silk jumpsuit with a plunging neckline. Golden hour
「五顏六色的珊瑚礁,各種各樣的海洋生物,包括各種魚、海龜和頑皮的海豚」。
這次,V5.2直接把海豚無視掉了,并自作主張地畫了一個潛水員……
A colorful coral reef teeming with marine life. There are various species of fish, a sea turtle, and a playful dolphin. Sunlight filters through the water, creating a dappled effect on the sea floor.「1980年代的間諜電影,年輕的黑發(fā)女人站在埃及裝飾風(fēng)格的豪宅中,有著黑色大理石柱子。」顯然,V6對于黑色大理石柱等背景的還原,要比V5.2準(zhǔn)確得多。
1980s spy movie, Medium closeup shot from low-angle, 35mm film still of a young brunette Egyptian woman standing in an Egyptian Art Deco Mansion with large columns made of black marble, wearing a black sequin dress, inside, daytime, natural lighting「電影劇照,一名偵探在犯罪現(xiàn)場采訪一名女性證人,偵探在做筆錄,目擊者焦急地看著,指著一條線索?!箍梢钥吹剑琕6的人物動作更加符合常理,而V5.2的圖片中人物動作像是在發(fā)呆,沒有按照提示詞的描述進(jìn)行做筆錄的行為。
interviewing a female witness at a crime scene. The detective is taking notes, while the witness looks on anxiously, pointing towards a clue就如同開頭所說,「只要你能說得清楚,V6就能給你畫明白。」如果你是個想象力大師,可以用邏輯結(jié)構(gòu)清晰、充滿細(xì)節(jié)的語言描繪出心中所想,V6定不會讓你失望——語言可以控制光影、控制材質(zhì)、控制色彩、控制構(gòu)圖。一句話,語言的魔力已經(jīng)被放至最大:能寫出神級Prompt的人,必得神圖。而相比之下,有ChatGPT加持的DALL-E 3,就不這么苛求用戶的語言表達(dá)能力,而是可以自行想象。難怪大家都說,Midjourney的上限足夠高,DALL-E 3的下限足夠低。
文字生成,直追SOTA
在文字生成上,V6較前代也有了巨大的提升。EMPTY、TOMORROW、Coca Cola,這些字在圖像中想加就加。雖然在準(zhǔn)確度上略遜于DALL·E 3,但視覺美感方面的表現(xiàn),Midjourney依舊是遙遙領(lǐng)先。不過需要注意的是,下面這些圖像,每一張都進(jìn)行了3-10次的嘗試,才得了到比較理想的結(jié)果。
A man standing alone in a dark empty area, staring at a neon sign that says "EMPTY"
A realistic standup pouch product photo mockup decorated with bananas, raisins and apples with the words "ORGANIC SNACKS" featured prominently
An anime style movie poster with the stylized words "TOMORROW", with a girl looking upwards at the night sky, and cherry blossoms floating in the wind. --s 200
A Coca Cola ad, featuring a beverage can design with traditional Hawaiian patterns
A clean, minimalistic logo featuring an ice cream cone, with palm trees as the backdrop and the words "ICE CREAM OASIS" --style raw
A clean and minimalistic professionally designed vector of a biker speeding on a highway, with the words "FREEDOM ON WHEELS" --s 250
A minimalistic product shot of a bottle of perfume on a clean backdrop with the words "Floral Symphony", surrounded by fragrant white flowers
A modern cinematic movie poster with the words "FALLEN" showing a fallen angel in a dark forest --style raw --s 200
A modern burger advertisement, with the words "THE BIG ONE", featuring a delicious huge beef burger, with tomatoes and lettuce in the background
A pixar style illustration of a happy hedgehog, standing beside a wooden signboard saying "SUNFLOWERS", in a meadow surrounded by blooming sunflowers這里,我們匯總了一些可以提高生成準(zhǔn)確率的實用技巧:
1. 將單詞大寫并放在引號中,如「LIKE THIS」,可以提高生成的準(zhǔn)確度2. 使用--style raw參數(shù),可以得到更準(zhǔn)確的結(jié)果3. 明確提出是電影海報(movie poster)和廣告(advertisement),效果更好4. 高stylize值可以創(chuàng)造出更有趣的文字效果
三大AI生圖巨頭pk,誰能勝出?
所以,現(xiàn)在AI生圖工具的三大巨頭,無疑就是Midjourney V6、DALL·E 3和Adobe Firefly了。網(wǎng)友們當(dāng)然迫不及待地讓三巨頭展開了一場大pk,對同一主題生圖,一目了然地拼個高下。Midjourney因為有著非常豐富的光影效果,有極強(qiáng)的真實感,幾乎沒有了原先那種「一眼AI」的感覺。同樣畫一個年輕女人,MJ打在臉上的光影效果讓人震撼,人物的眼神在傳達(dá)著某種情緒,整個畫面都充滿了電影感和故事感。相比之下,另外兩個女人美則美矣,眼神卻略顯空洞。
金發(fā)粉色衣服的美女,MJ畫的美女骨相耐看,衣服很仙。果然,Midjourney畫的美女,永遠(yuǎn)是最好看的。
藍(lán)莓蛋糕,MJ也是贏得很徹底。相比之下,DALL·E 3的AI感還是太重了,一眼假。
「一對白發(fā)蒼蒼的老人」這道題,MJ的作品太動人了,一張照片仿佛包含了一生的故事。
機(jī)甲戰(zhàn)士三家都畫得不多,MJ的背景虛化顯然是做得最好的。
雪中櫻花的背景,MJ又一次完勝。
同樣是金發(fā)美女,三張圖構(gòu)圖不同,側(cè)重點也不同。要論故事感,還是MJ完勝。
拿著相機(jī)的美女,后面是起火的建筑。MJ的人物情緒是對的,Adobe Firefly畫的美女笑得就太沒心沒肺了,DALL·E 3的人物和背景太剝離,光線太假。
總之,雖然大家對于AI生圖的評價標(biāo)準(zhǔn)各有不同的,但可以篤定地說,在藝術(shù)性和創(chuàng)意的觸感上,Midjourney V6這一輪是妥妥地贏了。做對比圖的博主說,Midjourney現(xiàn)在是,并且可能永遠(yuǎn)是自己的最愛。就是因為它,自己才進(jìn)入了這個AI藝術(shù)社區(qū)。
這位網(wǎng)友表示,在審美上,MJ把兩位對手遠(yuǎn)遠(yuǎn)甩在了后面。
這位網(wǎng)友指出,Adobe Firefly的優(yōu)點就是,讓圖像看起來如此逼真,以至于你可以直接上傳社交媒體。相比之下,MJ的對比度更高,更傾向于添加光影。
很抱歉,請在手機(jī)微信登錄投票
你最喜歡誰家出的圖? 單選
Midjourney V6
Adobe Firely
DALL·E 3
參考資料:https://twitter.com/Mr_AllenT/status/1737829217973243990https://twitter.com/chaseleantj/status/1737816505507795060