機(jī)器之心原創(chuàng)
作者:杜偉
這次,百度文心跨模態(tài)大模型讓你的創(chuàng)意「飛起來(lái)」!
(相關(guān)資料圖)
在近年來(lái)的 AI 領(lǐng)域,隨著 NLP 和 CV 的日益融合,多模態(tài)學(xué)習(xí)越來(lái)越受到學(xué)界和業(yè)界的重視,其中文本生成圖像更是成為現(xiàn)象級(jí)研究方向。輸入一段語(yǔ)言描述,AI 即能輸出對(duì)應(yīng)的圖像,兼具速度與質(zhì)量。
在這股以文生圖風(fēng)潮中,AI 底蘊(yùn)深厚的國(guó)外大廠紛紛推出多模態(tài)文生圖模型,比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。這些 AI 模型生成的圖像都給人留下了深刻的印象,在逼真度、趣味性、風(fēng)格等方面各有特點(diǎn)。
DALL-E 2(左)和 Disco Diffusion(右)的不同畫(huà)風(fēng)。
國(guó)內(nèi) AI 巨頭在中文多模態(tài)特別是文生圖這一賽道也頗有建樹(shù),尤以百度基于知識(shí)增強(qiáng)的文心跨模態(tài)大模型語(yǔ)義理解技術(shù)為代表,其中的跨模態(tài)生成大模型 ERNIE-ViLG 可以根據(jù)用戶輸入的語(yǔ)言描述自動(dòng)創(chuàng)作不同風(fēng)格(水彩、粉筆畫(huà)、卡通、油畫(huà)、蠟筆畫(huà)、兒童畫(huà))的圖像。前段時(shí)間,百度數(shù)字人度曉曉更是創(chuàng)作出了引發(fā)熱議的「無(wú)界」系列畫(huà)作,被專業(yè)美院教授評(píng)價(jià)為「已經(jīng)達(dá)到了本科美術(shù)生的基本要求」。
不過(guò),百度并沒(méi)有滿足于此,想要在文生圖領(lǐng)域更專、更快,讓生成的圖像打破風(fēng)格的桎梏,同時(shí)更關(guān)注用戶的創(chuàng)意需求。在今日成都舉辦的 2022 中國(guó)圖象圖形大會(huì)上,百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜重磅推出了基于文心大模型的 AI 藝術(shù)和創(chuàng)意輔助平臺(tái)——文心 · 一格,突出創(chuàng)意成為它的顯著特征。
百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜
作為業(yè)界首個(gè) AI 藝術(shù)和創(chuàng)意輔助平臺(tái),文心 · 一格面向三類人群,包括 1)畫(huà)師、設(shè)計(jì)師、藝術(shù)家等視覺(jué)內(nèi)容創(chuàng)作者,2)媒體、作者等文字內(nèi)容創(chuàng)作者和 3)大眾用戶。他們可以通過(guò)文心 · 一格智能生成多樣化創(chuàng)意圖片,并從中汲取創(chuàng)意靈感,打破創(chuàng)意瓶頸。
不同于 DALL-E 2 和 Disco Diffusion 等有風(fēng)格偏向性的 AI 作畫(huà)工具,一格則取多家之所長(zhǎng),在圖畫(huà)創(chuàng)作上具有更強(qiáng)的實(shí)用性和藝術(shù)性,支持插畫(huà)、科幻、中國(guó)畫(huà)、動(dòng)漫風(fēng)等十余種不同風(fēng)格高清藝術(shù)畫(huà)作的生成,既能生產(chǎn)恢弘絢麗的藝術(shù)畫(huà),也能創(chuàng)作充滿創(chuàng)意腦洞的超寫(xiě)實(shí)圖。
文心 · 一格,一語(yǔ)成畫(huà)
一格文生圖效果到底如何呢?輸入語(yǔ)言描述「太空中不斷延伸的環(huán)形軌道」,我們得到了如下震撼的太空?qǐng)D??梢钥闯觯桓裆傻膱D像具有極強(qiáng)的寫(xiě)實(shí)性,如果不告訴你這是出自 AI 之手,一定會(huì)有人認(rèn)為是真實(shí)的太空?qǐng)鼍啊?/p>
當(dāng)然,寫(xiě)實(shí)性強(qiáng)只是一格文生圖的一方面優(yōu)勢(shì),它在生成寫(xiě)實(shí)圖像的同時(shí)還兼顧了藝術(shù)風(fēng)格。依然用示例說(shuō)話,輸入語(yǔ)言描述「埃及金字塔」。以往的 AI 模型比較擅長(zhǎng)生成風(fēng)景圖,但復(fù)現(xiàn)真實(shí)建筑則有相當(dāng)難度,有些模型生成的圖像偏藝術(shù)缺乏真實(shí)性。一格則在真實(shí)性與藝術(shù)性之間找到了很好的平衡。
接下來(lái)繼續(xù)欣賞一格生成的另一些創(chuàng)意畫(huà)作。想了解下傳說(shuō)中的「鳳凰」長(zhǎng)什么樣子,交給一格,片刻之后就能生成恢弘絢麗的畫(huà)面。
一格生成創(chuàng)意腦洞的超寫(xiě)實(shí)圖也不在話下,比如「騎摩托的帥氣熊貓」、「公園的湖面波光粼粼,倒映著美麗的建筑」。
所有這些,用戶要做的就是動(dòng)動(dòng)手指,輸入語(yǔ)言描述,片刻之后就能生成藝術(shù)大作。在創(chuàng)作過(guò)程中,一格還可以通過(guò)指定圖像風(fēng)格、藝術(shù)家等方式,針對(duì)同一個(gè)語(yǔ)言描述生成多樣化的、具備不同風(fēng)格特點(diǎn)的圖像。
一番創(chuàng)作下來(lái),我們可以用 16 個(gè)字來(lái)概括一格的主要特點(diǎn):突破想象、簡(jiǎn)單易用、快速成畫(huà)、別具一格。
突破想象:一格擁有非常豐富的創(chuàng)作庫(kù),可根據(jù)語(yǔ)義聯(lián)想和概念組合,自由創(chuàng)作多種風(fēng)格創(chuàng)意畫(huà)作,既能生成恢弘絢麗的藝術(shù)畫(huà),也能生成創(chuàng)意腦洞的超寫(xiě)實(shí)圖;
簡(jiǎn)單易用:一格使用門(mén)檻非常低,用戶只需輸入一句語(yǔ)言描述,一格就可創(chuàng)作出不同風(fēng)格的藝術(shù)畫(huà)作;
快速成畫(huà):用戶輸入語(yǔ)言描述后,一格可在片刻生成一幅高清創(chuàng)意畫(huà)作;
別具一格:一格生成的每幅畫(huà)作,都是獨(dú)一無(wú)二的。
一格文生圖過(guò)程
一格文生圖的過(guò)程大致可以分為以下幾個(gè)步驟。
首先,需要準(zhǔn)備海量的圖文對(duì)數(shù)據(jù),數(shù)量不僅要多,質(zhì)量還要好,這樣可以讓一格在充足的數(shù)據(jù)中學(xué)習(xí)「語(yǔ)言描述」與「藝術(shù)畫(huà)面」的關(guān)聯(lián)。不過(guò),這種關(guān)聯(lián)又是豐富且復(fù)雜的。
依然用示例來(lái)講,假如是讓生成一幅風(fēng)景圖,結(jié)果出來(lái)的是動(dòng)物圖,那就很糟糕了。還有就是,同一個(gè)事物有多種藝術(shù)風(fēng)格,例如山峰在中國(guó)畫(huà)中是壁立千仞,在油畫(huà)中是威嚴(yán)莊重,在科幻設(shè)定圖中或許已經(jīng)被機(jī)械掏空,建立起了霓虹閃爍的未來(lái)都市等。經(jīng)過(guò)海量的數(shù)據(jù)訓(xùn)練,一格學(xué)會(huì)了「語(yǔ)言描述」與「藝術(shù)畫(huà)面」之間的關(guān)聯(lián)。
在此基礎(chǔ)上,用戶輸入一段語(yǔ)言描述(例如狗、油畫(huà)),一格將調(diào)動(dòng)以上學(xué)習(xí)到的知識(shí)和能力,以隨機(jī)化的起點(diǎn)開(kāi)始進(jìn)行初步創(chuàng)作。不同于人類作畫(huà)過(guò)程,一格先是生成畫(huà)面整體輪廓,然后經(jīng)過(guò)數(shù)百輪的迭代,修正完善畫(huà)面細(xì)節(jié)。
對(duì)于過(guò)程中的每一輪迭代,一格都會(huì)仔細(xì)檢查草稿與語(yǔ)言描述的一致性,目的就是讓作品與輸入的語(yǔ)言描述具有正確的關(guān)聯(lián)。持續(xù)的修正使得整體構(gòu)圖不斷明晰,模糊和噪聲逐漸被精確的配色和輪廓代替,最終形成在審美上與人類經(jīng)驗(yàn)與知識(shí)高度一致的成品。
一格創(chuàng)作過(guò)程中,語(yǔ)言描述是關(guān)鍵,因?yàn)橛脩糨斎氲膬?nèi)容決定了其生成的內(nèi)容,是作畫(huà)靈感的根本來(lái)源,更是 AI 生成畫(huà)作最關(guān)鍵的指引。一格從海量數(shù)據(jù)中學(xué)習(xí)到的知識(shí),是靈感得以實(shí)現(xiàn)的基礎(chǔ),人類畫(huà)作數(shù)千年的積累和沉淀為 AI 文生圖提供了無(wú)限可能。
與此同時(shí),AI 生成圖像過(guò)程中的隨機(jī)性,是靈感的補(bǔ)充,其可以學(xué)習(xí)一千種人類繪制山峰的方式,甚至創(chuàng)造出第一千零一種。
一格為藝術(shù)創(chuàng)作提供靈感
你可能會(huì)問(wèn),一格文生圖有什么意義呢?
對(duì)于畫(huà)師、設(shè)計(jì)師、藝術(shù)家等專業(yè)人士來(lái)說(shuō),他們總會(huì)遇到瓶頸期。雖然有很好的創(chuàng)作思路和構(gòu)想,但卻一時(shí)想不出好的或自己滿意的繪畫(huà)表現(xiàn)形式;或者藝術(shù)創(chuàng)作已經(jīng)達(dá)到了相當(dāng)?shù)母叨?,尋求新的突破?chuàng)新遇到困難;又或者創(chuàng)作出的東西總是達(dá)不到自己想要的效果,進(jìn)行到一半就進(jìn)行不下去了……
一格平臺(tái)就是為此而生,它可以啟發(fā)創(chuàng)意,讓人們從 AI 生成的圖像中重新汲取靈感。
再者作為媒體人、新聞編輯等工作人員,有時(shí)會(huì)因?yàn)檎也坏胶线m的配圖而苦惱不已;還有就是大眾用戶,想體驗(yàn)創(chuàng)作帶來(lái)的樂(lè)趣等。所有這些,一格平臺(tái)也都能為你提供。
一格背后持續(xù)創(chuàng)新的跨模態(tài)大模型技術(shù)
我們知道,AI 圖文創(chuàng)作往往需要解決三個(gè)關(guān)鍵挑戰(zhàn)。首先在需求理解階段,要準(zhǔn)確理解需求,降低語(yǔ)言描述的門(mén)檻;其次在原創(chuàng)生成階段,要精準(zhǔn)刻畫(huà)用戶需求表意,支持多樣化風(fēng)格;最后在需求滿足階段,要對(duì)生成結(jié)果進(jìn)行選擇,保證和提升它們的質(zhì)量。
然而,解決這些挑戰(zhàn)并不容易。因此,一格平臺(tái)在構(gòu)建過(guò)程中得到了百度文心大模型提供的強(qiáng)大底層技術(shù)支持,尤其是不斷改進(jìn)的跨模態(tài)技術(shù)。
一方面對(duì)文心知識(shí)增強(qiáng)跨模態(tài)理解大模型的創(chuàng)新,提出了基于多視角對(duì)比學(xué)習(xí)的 ERNIE-ViL 2.0,在預(yù)訓(xùn)練過(guò)程同時(shí)學(xué)習(xí)模態(tài)間和模態(tài)內(nèi)的多種關(guān)聯(lián)性,提升了「圖像」和「文本」跨模態(tài)語(yǔ)義匹配效果,檢索效果遠(yuǎn)超 ChineseCLIP、WenLan 等模型。
另一方面是全球規(guī)模最大中文跨模態(tài)生成模型 ERNIE-ViLG,它將「文生成圖」和「圖生成文」任務(wù)融合到同一個(gè)模型進(jìn)行端到端學(xué)習(xí),從而增強(qiáng)文本和圖像的跨模態(tài)語(yǔ)義對(duì)齊。此次 ERNIE-ViLG 文圖生成算法迎來(lái)升級(jí),通過(guò)漸進(jìn)式擴(kuò)散模型,生成空間由小及大、生成輪廓由粗到細(xì),同時(shí)根據(jù)生成階段自動(dòng)選擇最優(yōu)生成網(wǎng)絡(luò),文本生成圖像的效果取得進(jìn)一步提升。
左為雙向圖像 - 文本生成的 ERNIE-ViLG 模型架構(gòu),右為漸進(jìn)式擴(kuò)散模型算法。
得益于文心跨模態(tài)大模型的一系列創(chuàng)新,百度將新技術(shù)實(shí)用化,研發(fā)出了一套支持 AI 作畫(huà)的文生圖系統(tǒng),提供了從用戶需求理解到滿足的全流程解決方案。如下圖所示,這套系統(tǒng)分為了兩大核心組件,分別是文本輸入階段基于知識(shí)的 prompt 工程以及生成和輸出階段的跨模態(tài)大模型。
首先,對(duì)于基于知識(shí)的 Prompt 工程,理解用戶需求并在此基礎(chǔ)上豐富語(yǔ)義細(xì)節(jié),降低用戶輸入描述成本。其次,基于擴(kuò)散生成算法實(shí)現(xiàn)創(chuàng)意寫(xiě)實(shí)與恢弘構(gòu)圖的藝術(shù)畫(huà)作生成。最后,基于跨模態(tài)匹配大模型進(jìn)行生成畫(huà)作的結(jié)果排序,自動(dòng)選出語(yǔ)義與美觀度最佳的畫(huà)作。
基于文心大模型的文生圖系統(tǒng)。
可以這樣說(shuō),文心跨模態(tài)大模型實(shí)現(xiàn)了多視角對(duì)比學(xué)習(xí)、圖文雙向生成、漸進(jìn)式擴(kuò)散模型等多項(xiàng)技術(shù)創(chuàng)新,它們成就了今日的一格平臺(tái)。
在不斷修煉技術(shù)內(nèi)功的同時(shí),百度還致力于構(gòu)建生態(tài)完整的開(kāi)放社區(qū),將大模型的能力釋放給普通人。更具體地講,百度為開(kāi)發(fā)者、廣大科技愛(ài)好者提供飛槳開(kāi)源工具和文心大模型 API 服務(wù)能力,滿足他們多樣化的創(chuàng)意探索需求。
一方面,開(kāi)發(fā)者可以在飛槳 PaddleHub 上直接調(diào)用相關(guān)的開(kāi)源模型,享受極簡(jiǎn)易用的開(kāi)發(fā)體驗(yàn),并綜合使用提供的 400 多個(gè) AI 開(kāi)源模型,組合開(kāi)發(fā)有趣的 AI 應(yīng)用,滿足更多藝術(shù)從業(yè)者、開(kāi)發(fā)者對(duì)圖片生成場(chǎng)景的需求;另一方面,文圖生成大模型 ERNIE-ViLG 為開(kāi)發(fā)者提供了 API 體驗(yàn)調(diào)用的入口,登陸飛槳旸谷社區(qū) API 體驗(yàn)專區(qū)即可體驗(yàn)其前沿技術(shù)能力,并能夠靈活方便、高效快速將文圖生成大模型能力集成到產(chǎn)品中。
從之前數(shù)字人度曉曉的作詞編曲、寫(xiě)作繪畫(huà),到 AI 修復(fù)傳世名畫(huà)《富春山居圖》,大模型賦能下的 AIGC 早已成為近來(lái)百度 AI 技術(shù)加速落地的著陸點(diǎn)。得益于持續(xù)創(chuàng)新的大模型技術(shù),百度不斷拓寬 AIGC 的適用范圍,并努力發(fā)掘更多樣化的內(nèi)容生產(chǎn)方式。
此次,百度在為用戶提供 ERNIE-ViLG API 體驗(yàn)智能作畫(huà)的基礎(chǔ)上更進(jìn)一步,用一格這個(gè)面向創(chuàng)意內(nèi)容的產(chǎn)品級(jí)綜合文生圖平臺(tái),為 AIGC 注入了更多活力和想象空間。在可預(yù)見(jiàn)的未來(lái),一格生成的超寫(xiě)實(shí)與藝術(shù)畫(huà)作,既有可能像度曉曉「無(wú)界」系列畫(huà)作一樣成為熱賣(mài)的數(shù)字藏品,還可以用作契合電影、動(dòng)漫主題的封面大作,更有望在游戲、元宇宙的多樣化動(dòng)態(tài)場(chǎng)景畫(huà)面中找到用武之地。
總之,在新的內(nèi)容創(chuàng)意和方式不斷涌現(xiàn)的當(dāng)下,AIGC 絕不應(yīng)只停留在玩一玩、看一看的階段,未來(lái)一定會(huì)在特定的應(yīng)用場(chǎng)景中為生產(chǎn)者創(chuàng)造價(jià)值,既可以是藝術(shù)上的,也可以是物質(zhì)上的。
關(guān)鍵詞: 創(chuàng)意有瓶頸嗎百度文心一格不存在 動(dòng)動(dòng)手指片刻生成