當(dāng)前位置：區(qū)塊鏈 >區(qū)塊鏈 > 阿里巴巴的新模型AnyText：動(dòng)動(dòng)嘴就能1分鐘做出一張電商大促海報(bào)

阿里巴巴的新模型AnyText：動(dòng)動(dòng)嘴就能1分鐘做出一張電商大促海報(bào)

更新時(shí)間：2024-01-04 10:47:00 | 作者：佚名

原文來(lái)源：GenAI新世界圖片來(lái)源：由無(wú)界AI生成眾所周知，如何在畫面中輸出文字一直是文生圖大模型的弱項(xiàng)。不過(guò)最近阿里巴巴做的新模型AnyText給了這個(gè)難題一個(gè)解。比如給出Prompt：“一張鋼筆的電商廣告，上邊寫有“雙12大促！”，“出水流暢”，“立即發(fā)貨”，“包郵”，“立減50”。”很快就能生成下面這張圖片：甚至不用修改都能直接當(dāng)作電商圖片...

原文來(lái)源：GenAI新世界

圖片來(lái)源：由無(wú)界 AI生成

眾所周知，如何在畫面中輸出文字一直是文生圖大模型的弱項(xiàng)。不過(guò)最近阿里巴巴做的新模型AnyText給了這個(gè)難題一個(gè)解。

比如給出Prompt：“一張鋼筆的電商廣告，上邊寫有“雙12大促！”，“出水流暢”，“立即發(fā)貨”，“包郵”，“立減50”?！焙芸炀湍苌上旅孢@張圖片：

甚至不用修改都能直接當(dāng)作電商圖片來(lái)使用了。

目前，AnyText 支持中英日韓四種語(yǔ)言。該項(xiàng)目在魔搭社區(qū)放出了 Demo ，可以通過(guò)部署到本地使用，也可以直接在魔搭社區(qū)試用。

給出Prompt：“一面藍(lán)色的墻，用中英日韓四種語(yǔ)言寫著“happy，快樂(lè)，ジョイフル，???””，之后 AnyText給出了這張圖片：

雖然文字有點(diǎn)怪，但至少實(shí)現(xiàn)了文字輸出功能。再換一個(gè)主題試一試，正好南方小土豆這個(gè)梗正火，我們跟著小土豆去哈爾濱看看：

效果不錯(cuò)，甚至讓人覺(jué)得AnyText在文字輸出能力這方面秒了當(dāng)前最強(qiáng)的Midjourney。要知道前不久剛剛更新的Midjourney 還只能輸出簡(jiǎn)單的英文，而且效果也只能說(shuō)一般。

能通過(guò)理解Prompt之后，給出恰當(dāng)?shù)膱D案，同時(shí)輔以恰當(dāng)?shù)奈淖郑w不說(shuō)藝術(shù)性有多高，但實(shí)用性是拉滿了。至少做表情包又多了一個(gè)途徑。

由AnyText生成

AnyText目前提供兩種功能，一個(gè)是圖片生成，一個(gè)是圖片編輯。顧名思義，圖片生成就是根據(jù)用戶的描述來(lái)生成一張帶有文字的圖片，而圖片編輯可以讓AI幫助用戶改變現(xiàn)有的圖片中的文字。

圖片編輯是AnyText一個(gè)非常實(shí)用的功能，只要將想要修改的圖片上傳，并在想要修改或添加文字的地方涂抹，同時(shí)寫上提示詞就可以對(duì)圖片中的文字進(jìn)行修改。既可以改變現(xiàn)有的文字內(nèi)容，也可以單獨(dú)為圖片增加文本。

上圖為AnyText修改后的效果，下圖為原圖

左圖為原圖，右圖為修改后的效果

圖片編輯這個(gè)功能可以在很大程度上提高各位美工老師修改圖片的速度。不過(guò)有了AnyText之后，以后恐怕大家還要加倍小心來(lái)判斷圖片中內(nèi)容的真假了。

而另一個(gè)就是圖片生成功能，這其實(shí)是AnyText的主要功能，可以在一定程度上取代平面設(shè)計(jì)的工作。用戶除了需要提供提示詞之外，還可以對(duì)文字出現(xiàn)的位置進(jìn)行調(diào)整。AnyText在這方面提供了三個(gè)不同的模式，分別是隨機(jī)、手繪和拖框。

手繪模式可以讓用戶隨機(jī)選擇文字出現(xiàn)的位置，如果對(duì)于文字位置沒(méi)有太好想法的用戶，還可以利用拖框功能拖出一個(gè)長(zhǎng)方形文本框，讓AI在框內(nèi)隨機(jī)發(fā)揮。

手繪

拖框

如果想不到合適的位置，也可以直接選隨機(jī)，讓 AI 自行安排。

選好文字位置，我們就可以輸入提示詞，并調(diào)整圖片的參數(shù)。讓我們來(lái)看看更多 AnyText生成的圖片效果吧：

在隨機(jī)模式下提出要求：生成一張1980年的報(bào)紙，標(biāo)題是“新報(bào)”

在手繪模式下輸入：一個(gè)橢圓形的銘牌，寫有“姓名：羅建成，ID：0875”

在手繪模式下輸入：生成一個(gè)未來(lái)感的LOGO，標(biāo)有“GENAI 新世界”

在拖框模式下輸入：一幅古典人物畫像，標(biāo)有固體詩(shī)文“知否知否，應(yīng)是綠肥紅瘦”

隨機(jī)模式下輸入：畫一個(gè)水果裝飾的奶油蛋糕，下方寫有“生日快樂(lè)”

在拖框模式下輸入：一張兒童蠟筆畫，森林中有一座糖果屋，標(biāo)題是“糖果屋”

在手繪模式下輸入：一位大媽站在公告板前，寫有“安全生產(chǎn)”

各種圖片證明，AnyText的文字表達(dá)能力和同行比起來(lái)挺強(qiáng)的，不管是中文還是英文都能清晰地讓人辨認(rèn)出來(lái)，甚至連古體字也能輕松表現(xiàn)。

但這就讓人感覺(jué)非常遺憾了，因?yàn)樵谒奈淖州敵瞿芰γ媲?，AnyText的圖片內(nèi)容質(zhì)量和理解能力都跟不上。這讓AnyText像一個(gè)偏科生，雖然有一項(xiàng)表現(xiàn)特別出色的科目，但整體成績(jī)平平。這比那些哪哪都不行的模型更讓人覺(jué)得可惜。

AnyText還有一個(gè)很大的問(wèn)題，就是生成時(shí)間的問(wèn)題。雖然很多圖片生成模型都需要一定的時(shí)間來(lái)生成內(nèi)容，但沒(méi)有像AnyText耗時(shí)這么長(zhǎng)的。基本上一組圖片生成需要耗時(shí)3—4分鐘，甚至有的圖片生成時(shí)間超過(guò)了5分鐘。而 AnyText 自己給出的預(yù)估時(shí)間常與實(shí)際花費(fèi)時(shí)間矛盾，讓用戶覺(jué)得等待時(shí)間更久。而且AnyText是不是還會(huì)出現(xiàn)Bug，讓用戶必須重新生成圖片。

還有一點(diǎn)，AnyText 雖然可以改變圖片的分辨率、強(qiáng)度、種子數(shù)、風(fēng)格等專業(yè)參數(shù)，但這方面引導(dǎo)做的并不好，如果不是隨意點(diǎn)開，許多人幾乎都找不到改變參數(shù)的位置。生成式大模型都發(fā)展一年了，這些基礎(chǔ)功能還需要人自己挖掘，這點(diǎn)挺令人遺憾的。

總體來(lái)說(shuō)，AnyText并不算一款成熟的產(chǎn)品，雖然在文字輸出方面有著自己的優(yōu)勢(shì)，但就目前的圖片質(zhì)量而言，想要投入實(shí)際使用恐怕還是要好好訓(xùn)練一段時(shí)間。

本站提醒：投資有風(fēng)險(xiǎn)，入市須謹(jǐn)慎，本內(nèi)容不作為投資理財(cái)建議。

99ri日韩国产,日韩国产欧美另类,亚洲ⅴa在线va天堂va,青青青亚洲视频

阿里巴巴的新模型AnyText：動(dòng)動(dòng)嘴就能1分鐘做出一張電商大促海報(bào)