原文來(lái)源:GenAI新世界
圖片來(lái)源:由無(wú)界 AI生成
眾所周知,如何在畫面中輸出文字一直是文生圖大模型的弱項(xiàng)。不過(guò)最近阿里巴巴做的新模型AnyText給了這個(gè)難題一個(gè)解。
比如給出Prompt:“一張鋼筆的電商廣告,上邊寫有“雙12大促!”,“出水流暢”,“立即發(fā)貨”,“包郵”,“立減50”?!焙芸炀湍苌上旅孢@張圖片:
甚至不用修改都能直接當(dāng)作電商圖片來(lái)使用了。
目前,AnyText 支持中英日韓四種語(yǔ)言。該項(xiàng)目在魔搭社區(qū)放出了 Demo ,可以通過(guò)部署到本地使用,也可以直接在魔搭社區(qū)試用。
給出Prompt:“一面藍(lán)色的墻,用中英日韓四種語(yǔ)言寫著“happy,快樂(lè),ジョイフル,???””,之后 AnyText給出了這張圖片:
雖然文字有點(diǎn)怪,但至少實(shí)現(xiàn)了文字輸出功能。再換一個(gè)主題試一試,正好南方小土豆這個(gè)梗正火,我們跟著小土豆去哈爾濱看看:
效果不錯(cuò),甚至讓人覺(jué)得AnyText在文字輸出能力這方面秒了當(dāng)前最強(qiáng)的Midjourney。要知道前不久剛剛更新的Midjourney 還只能輸出簡(jiǎn)單的英文,而且效果也只能說(shuō)一般。
能通過(guò)理解Prompt之后,給出恰當(dāng)?shù)膱D案,同時(shí)輔以恰當(dāng)?shù)奈淖郑w不說(shuō)藝術(shù)性有多高,但實(shí)用性是拉滿了。至少做表情包又多了一個(gè)途徑。
由AnyText生成
AnyText目前提供兩種功能,一個(gè)是圖片生成,一個(gè)是圖片編輯。顧名思義,圖片生成就是根據(jù)用戶的描述來(lái)生成一張帶有文字的圖片,而圖片編輯可以讓AI幫助用戶改變現(xiàn)有的圖片中的文字。
圖片編輯是AnyText一個(gè)非常實(shí)用的功能,只要將想要修改的圖片上傳,并在想要修改或添加文字的地方涂抹,同時(shí)寫上提示詞就可以對(duì)圖片中的文字進(jìn)行修改。既可以改變現(xiàn)有的文字內(nèi)容,也可以單獨(dú)為圖片增加文本。
上圖為AnyText修改后的效果,下圖為原圖
左圖為原圖,右圖為修改后的效果
圖片編輯這個(gè)功能可以在很大程度上提高各位美工老師修改圖片的速度。不過(guò)有了AnyText之后,以后恐怕大家還要加倍小心來(lái)判斷圖片中內(nèi)容的真假了。
而另一個(gè)就是圖片生成功能,這其實(shí)是AnyText的主要功能,可以在一定程度上取代平面設(shè)計(jì)的工作。用戶除了需要提供提示詞之外,還可以對(duì)文字出現(xiàn)的位置進(jìn)行調(diào)整。AnyText在這方面提供了三個(gè)不同的模式,分別是隨機(jī)、手繪和拖框。
手繪模式可以讓用戶隨機(jī)選擇文字出現(xiàn)的位置,如果對(duì)于文字位置沒(méi)有太好想法的用戶,還可以利用拖框功能拖出一個(gè)長(zhǎng)方形文本框,讓AI在框內(nèi)隨機(jī)發(fā)揮。
手繪
拖框
如果想不到合適的位置,也可以直接選隨機(jī),讓 AI 自行安排。
選好文字位置,我們就可以輸入提示詞,并調(diào)整圖片的參數(shù)。讓我們來(lái)看看更多 AnyText生成的圖片效果吧:
在隨機(jī)模式下提出要求:生成一張1980年的報(bào)紙,標(biāo)題是“新報(bào)”
在手繪模式下輸入:一個(gè)橢圓形的銘牌,寫有“姓名:羅建成,ID:0875”
在手繪模式下輸入:生成一個(gè)未來(lái)感的LOGO,標(biāo)有“GENAI 新世界”
在拖框模式下輸入:一幅古典人物畫像,標(biāo)有固體詩(shī)文“知否知否,應(yīng)是綠肥紅瘦”
隨機(jī)模式下輸入:畫一個(gè)水果裝飾的奶油蛋糕,下方寫有“生日快樂(lè)”
在拖框模式下輸入:一張兒童蠟筆畫,森林中有一座糖果屋,標(biāo)題是“糖果屋”
在手繪模式下輸入:一位大媽站在公告板前,寫有“安全生產(chǎn)”
各種圖片證明,AnyText的文字表達(dá)能力和同行比起來(lái)挺強(qiáng)的,不管是中文還是英文都能清晰地讓人辨認(rèn)出來(lái),甚至連古體字也能輕松表現(xiàn)。
但這就讓人感覺(jué)非常遺憾了,因?yàn)樵谒奈淖州敵瞿芰γ媲?,AnyText的圖片內(nèi)容質(zhì)量和理解能力都跟不上。這讓AnyText像一個(gè)偏科生,雖然有一項(xiàng)表現(xiàn)特別出色的科目,但整體成績(jī)平平。這比那些哪哪都不行的模型更讓人覺(jué)得可惜。
AnyText還有一個(gè)很大的問(wèn)題,就是生成時(shí)間的問(wèn)題。雖然很多圖片生成模型都需要一定的時(shí)間來(lái)生成內(nèi)容,但沒(méi)有像AnyText耗時(shí)這么長(zhǎng)的。基本上一組圖片生成需要耗時(shí)3—4分鐘,甚至有的圖片生成時(shí)間超過(guò)了5分鐘。而 AnyText 自己給出的預(yù)估時(shí)間常與實(shí)際花費(fèi)時(shí)間矛盾,讓用戶覺(jué)得等待時(shí)間更久。而且AnyText是不是還會(huì)出現(xiàn)Bug,讓用戶必須重新生成圖片。
還有一點(diǎn),AnyText 雖然可以改變圖片的分辨率、強(qiáng)度、種子數(shù)、風(fēng)格等專業(yè)參數(shù),但這方面引導(dǎo)做的并不好,如果不是隨意點(diǎn)開,許多人幾乎都找不到改變參數(shù)的位置。生成式大模型都發(fā)展一年了,這些基礎(chǔ)功能還需要人自己挖掘,這點(diǎn)挺令人遺憾的。
總體來(lái)說(shuō),AnyText并不算一款成熟的產(chǎn)品,雖然在文字輸出方面有著自己的優(yōu)勢(shì),但就目前的圖片質(zhì)量而言,想要投入實(shí)際使用恐怕還是要好好訓(xùn)練一段時(shí)間。