91精品国产免费久久久久久试看,色综合天天综合网国产

機(jī)器之心原創(chuàng)

作者：杜偉

這次，百度文心跨模態(tài)大模型讓你的創(chuàng)意「飛起來(lái)」！

(相關(guān)資料圖)

在近年來(lái)的 AI 領(lǐng)域，隨著 NLP 和 CV 的日益融合，多模態(tài)學(xué)習(xí)越來(lái)越受到學(xué)界和業(yè)界的重視，其中文本生成圖像更是成為現(xiàn)象級(jí)研究方向。輸入一段語(yǔ)言描述，AI 即能輸出對(duì)應(yīng)的圖像，兼具速度與質(zhì)量。

在這股以文生圖風(fēng)潮中，AI 底蘊(yùn)深厚的國(guó)外大廠紛紛推出多模態(tài)文生圖模型，比如 DALL-E 2、 GauGAN2 和 Disco Diffusion 等。這些 AI 模型生成的圖像都給人留下了深刻的印象，在逼真度、趣味性、風(fēng)格等方面各有特點(diǎn)。

DALL-E 2（左）和 Disco Diffusion（右）的不同畫(huà)風(fēng)。

國(guó)內(nèi) AI 巨頭在中文多模態(tài)特別是文生圖這一賽道也頗有建樹(shù)，尤以百度基于知識(shí)增強(qiáng)的文心跨模態(tài)大模型語(yǔ)義理解技術(shù)為代表，其中的跨模態(tài)生成大模型 ERNIE-ViLG 可以根據(jù)用戶輸入的語(yǔ)言描述自動(dòng)創(chuàng)作不同風(fēng)格（水彩、粉筆畫(huà)、卡通、油畫(huà)、蠟筆畫(huà)、兒童畫(huà)）的圖像。前段時(shí)間，百度數(shù)字人度曉曉更是創(chuàng)作出了引發(fā)熱議的「無(wú)界」系列畫(huà)作，被專業(yè)美院教授評(píng)價(jià)為「已經(jīng)達(dá)到了本科美術(shù)生的基本要求」。

不過(guò)，百度并沒(méi)有滿足于此，想要在文生圖領(lǐng)域更專、更快，讓生成的圖像打破風(fēng)格的桎梏，同時(shí)更關(guān)注用戶的創(chuàng)意需求。在今日成都舉辦的 2022 中國(guó)圖象圖形大會(huì)上，百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜重磅推出了基于文心大模型的 AI 藝術(shù)和創(chuàng)意輔助平臺(tái)——文心 · 一格，突出創(chuàng)意成為它的顯著特征。

百度集團(tuán)副總裁、深度學(xué)習(xí)技術(shù)及應(yīng)用國(guó)家工程研究中心副主任吳甜

作為業(yè)界首個(gè) AI 藝術(shù)和創(chuàng)意輔助平臺(tái)，文心 · 一格面向三類人群，包括 1）畫(huà)師、設(shè)計(jì)師、藝術(shù)家等視覺(jué)內(nèi)容創(chuàng)作者，2）媒體、作者等文字內(nèi)容創(chuàng)作者和 3）大眾用戶。他們可以通過(guò)文心 · 一格智能生成多樣化創(chuàng)意圖片，并從中汲取創(chuàng)意靈感，打破創(chuàng)意瓶頸。

不同于 DALL-E 2 和 Disco Diffusion 等有風(fēng)格偏向性的 AI 作畫(huà)工具，一格則取多家之所長(zhǎng)，在圖畫(huà)創(chuàng)作上具有更強(qiáng)的實(shí)用性和藝術(shù)性，支持插畫(huà)、科幻、中國(guó)畫(huà)、動(dòng)漫風(fēng)等十余種不同風(fēng)格高清藝術(shù)畫(huà)作的生成，既能生產(chǎn)恢弘絢麗的藝術(shù)畫(huà)，也能創(chuàng)作充滿創(chuàng)意腦洞的超寫(xiě)實(shí)圖。

文心 · 一格，一語(yǔ)成畫(huà)

一格文生圖效果到底如何呢？輸入語(yǔ)言描述「太空中不斷延伸的環(huán)形軌道」，我們得到了如下震撼的太空?qǐng)D?？梢钥闯觯桓裆傻膱D像具有極強(qiáng)的寫(xiě)實(shí)性，如果不告訴你這是出自 AI 之手，一定會(huì)有人認(rèn)為是真實(shí)的太空?qǐng)鼍啊?/p>

當(dāng)然，寫(xiě)實(shí)性強(qiáng)只是一格文生圖的一方面優(yōu)勢(shì)，它在生成寫(xiě)實(shí)圖像的同時(shí)還兼顧了藝術(shù)風(fēng)格。依然用示例說(shuō)話，輸入語(yǔ)言描述「埃及金字塔」。以往的 AI 模型比較擅長(zhǎng)生成風(fēng)景圖，但復(fù)現(xiàn)真實(shí)建筑則有相當(dāng)難度，有些模型生成的圖像偏藝術(shù)缺乏真實(shí)性。一格則在真實(shí)性與藝術(shù)性之間找到了很好的平衡。

接下來(lái)繼續(xù)欣賞一格生成的另一些創(chuàng)意畫(huà)作。想了解下傳說(shuō)中的「鳳凰」長(zhǎng)什么樣子，交給一格，片刻之后就能生成恢弘絢麗的畫(huà)面。

一格生成創(chuàng)意腦洞的超寫(xiě)實(shí)圖也不在話下，比如「騎摩托的帥氣熊貓」、「公園的湖面波光粼粼，倒映著美麗的建筑」。

所有這些，用戶要做的就是動(dòng)動(dòng)手指，輸入語(yǔ)言描述，片刻之后就能生成藝術(shù)大作。在創(chuàng)作過(guò)程中，一格還可以通過(guò)指定圖像風(fēng)格、藝術(shù)家等方式，針對(duì)同一個(gè)語(yǔ)言描述生成多樣化的、具備不同風(fēng)格特點(diǎn)的圖像。

一番創(chuàng)作下來(lái)，我們可以用 16 個(gè)字來(lái)概括一格的主要特點(diǎn)：突破想象、簡(jiǎn)單易用、快速成畫(huà)、別具一格。

突破想象：一格擁有非常豐富的創(chuàng)作庫(kù)，可根據(jù)語(yǔ)義聯(lián)想和概念組合，自由創(chuàng)作多種風(fēng)格創(chuàng)意畫(huà)作，既能生成恢弘絢麗的藝術(shù)畫(huà)，也能生成創(chuàng)意腦洞的超寫(xiě)實(shí)圖；

簡(jiǎn)單易用：一格使用門(mén)檻非常低，用戶只需輸入一句語(yǔ)言描述，一格就可創(chuàng)作出不同風(fēng)格的藝術(shù)畫(huà)作；

快速成畫(huà)：用戶輸入語(yǔ)言描述后，一格可在片刻生成一幅高清創(chuàng)意畫(huà)作；

別具一格：一格生成的每幅畫(huà)作，都是獨(dú)一無(wú)二的。

一格文生圖過(guò)程

一格文生圖的過(guò)程大致可以分為以下幾個(gè)步驟。

首先，需要準(zhǔn)備海量的圖文對(duì)數(shù)據(jù)，數(shù)量不僅要多，質(zhì)量還要好，這樣可以讓一格在充足的數(shù)據(jù)中學(xué)習(xí)「語(yǔ)言描述」與「藝術(shù)畫(huà)面」的關(guān)聯(lián)。不過(guò)，這種關(guān)聯(lián)又是豐富且復(fù)雜的。

依然用示例來(lái)講，假如是讓生成一幅風(fēng)景圖，結(jié)果出來(lái)的是動(dòng)物圖，那就很糟糕了。還有就是，同一個(gè)事物有多種藝術(shù)風(fēng)格，例如山峰在中國(guó)畫(huà)中是壁立千仞，在油畫(huà)中是威嚴(yán)莊重，在科幻設(shè)定圖中或許已經(jīng)被機(jī)械掏空，建立起了霓虹閃爍的未來(lái)都市等。經(jīng)過(guò)海量的數(shù)據(jù)訓(xùn)練，一格學(xué)會(huì)了「語(yǔ)言描述」與「藝術(shù)畫(huà)面」之間的關(guān)聯(lián)。

在此基礎(chǔ)上，用戶輸入一段語(yǔ)言描述（例如狗、油畫(huà)），一格將調(diào)動(dòng)以上學(xué)習(xí)到的知識(shí)和能力，以隨機(jī)化的起點(diǎn)開(kāi)始進(jìn)行初步創(chuàng)作。不同于人類作畫(huà)過(guò)程，一格先是生成畫(huà)面整體輪廓，然后經(jīng)過(guò)數(shù)百輪的迭代，修正完善畫(huà)面細(xì)節(jié)。

對(duì)于過(guò)程中的每一輪迭代，一格都會(huì)仔細(xì)檢查草稿與語(yǔ)言描述的一致性，目的就是讓作品與輸入的語(yǔ)言描述具有正確的關(guān)聯(lián)。持續(xù)的修正使得整體構(gòu)圖不斷明晰，模糊和噪聲逐漸被精確的配色和輪廓代替，最終形成在審美上與人類經(jīng)驗(yàn)與知識(shí)高度一致的成品。

一格創(chuàng)作過(guò)程中，語(yǔ)言描述是關(guān)鍵，因?yàn)橛脩糨斎氲膬?nèi)容決定了其生成的內(nèi)容，是作畫(huà)靈感的根本來(lái)源，更是 AI 生成畫(huà)作最關(guān)鍵的指引。一格從海量數(shù)據(jù)中學(xué)習(xí)到的知識(shí)，是靈感得以實(shí)現(xiàn)的基礎(chǔ)，人類畫(huà)作數(shù)千年的積累和沉淀為 AI 文生圖提供了無(wú)限可能。

與此同時(shí)，AI 生成圖像過(guò)程中的隨機(jī)性，是靈感的補(bǔ)充，其可以學(xué)習(xí)一千種人類繪制山峰的方式，甚至創(chuàng)造出第一千零一種。

一格為藝術(shù)創(chuàng)作提供靈感

你可能會(huì)問(wèn)，一格文生圖有什么意義呢？

對(duì)于畫(huà)師、設(shè)計(jì)師、藝術(shù)家等專業(yè)人士來(lái)說(shuō)，他們總會(huì)遇到瓶頸期。雖然有很好的創(chuàng)作思路和構(gòu)想，但卻一時(shí)想不出好的或自己滿意的繪畫(huà)表現(xiàn)形式；或者藝術(shù)創(chuàng)作已經(jīng)達(dá)到了相當(dāng)?shù)母叨?，尋求新的突破?chuàng)新遇到困難；又或者創(chuàng)作出的東西總是達(dá)不到自己想要的效果，進(jìn)行到一半就進(jìn)行不下去了……

一格平臺(tái)就是為此而生，它可以啟發(fā)創(chuàng)意，讓人們從 AI 生成的圖像中重新汲取靈感。

再者作為媒體人、新聞編輯等工作人員，有時(shí)會(huì)因?yàn)檎也坏胶线m的配圖而苦惱不已；還有就是大眾用戶，想體驗(yàn)創(chuàng)作帶來(lái)的樂(lè)趣等。所有這些，一格平臺(tái)也都能為你提供。

一格背后持續(xù)創(chuàng)新的跨模態(tài)大模型技術(shù)

我們知道，AI 圖文創(chuàng)作往往需要解決三個(gè)關(guān)鍵挑戰(zhàn)。首先在需求理解階段，要準(zhǔn)確理解需求，降低語(yǔ)言描述的門(mén)檻；其次在原創(chuàng)生成階段，要精準(zhǔn)刻畫(huà)用戶需求表意，支持多樣化風(fēng)格；最后在需求滿足階段，要對(duì)生成結(jié)果進(jìn)行選擇，保證和提升它們的質(zhì)量。

然而，解決這些挑戰(zhàn)并不容易。因此，一格平臺(tái)在構(gòu)建過(guò)程中得到了百度文心大模型提供的強(qiáng)大底層技術(shù)支持，尤其是不斷改進(jìn)的跨模態(tài)技術(shù)。

一方面對(duì)文心知識(shí)增強(qiáng)跨模態(tài)理解大模型的創(chuàng)新，提出了基于多視角對(duì)比學(xué)習(xí)的 ERNIE-ViL 2.0，在預(yù)訓(xùn)練過(guò)程同時(shí)學(xué)習(xí)模態(tài)間和模態(tài)內(nèi)的多種關(guān)聯(lián)性，提升了「圖像」和「文本」跨模態(tài)語(yǔ)義匹配效果，檢索效果遠(yuǎn)超 ChineseCLIP、WenLan 等模型。

另一方面是全球規(guī)模最大中文跨模態(tài)生成模型 ERNIE-ViLG，它將「文生成圖」和「圖生成文」任務(wù)融合到同一個(gè)模型進(jìn)行端到端學(xué)習(xí)，從而增強(qiáng)文本和圖像的跨模態(tài)語(yǔ)義對(duì)齊。此次 ERNIE-ViLG 文圖生成算法迎來(lái)升級(jí)，通過(guò)漸進(jìn)式擴(kuò)散模型，生成空間由小及大、生成輪廓由粗到細(xì)，同時(shí)根據(jù)生成階段自動(dòng)選擇最優(yōu)生成網(wǎng)絡(luò)，文本生成圖像的效果取得進(jìn)一步提升。

左為雙向圖像 - 文本生成的 ERNIE-ViLG 模型架構(gòu)，右為漸進(jìn)式擴(kuò)散模型算法。

得益于文心跨模態(tài)大模型的一系列創(chuàng)新，百度將新技術(shù)實(shí)用化，研發(fā)出了一套支持 AI 作畫(huà)的文生圖系統(tǒng)，提供了從用戶需求理解到滿足的全流程解決方案。如下圖所示，這套系統(tǒng)分為了兩大核心組件，分別是文本輸入階段基于知識(shí)的 prompt 工程以及生成和輸出階段的跨模態(tài)大模型。

首先，對(duì)于基于知識(shí)的 Prompt 工程，理解用戶需求并在此基礎(chǔ)上豐富語(yǔ)義細(xì)節(jié)，降低用戶輸入描述成本。其次，基于擴(kuò)散生成算法實(shí)現(xiàn)創(chuàng)意寫(xiě)實(shí)與恢弘構(gòu)圖的藝術(shù)畫(huà)作生成。最后，基于跨模態(tài)匹配大模型進(jìn)行生成畫(huà)作的結(jié)果排序，自動(dòng)選出語(yǔ)義與美觀度最佳的畫(huà)作。

基于文心大模型的文生圖系統(tǒng)。

可以這樣說(shuō)，文心跨模態(tài)大模型實(shí)現(xiàn)了多視角對(duì)比學(xué)習(xí)、圖文雙向生成、漸進(jìn)式擴(kuò)散模型等多項(xiàng)技術(shù)創(chuàng)新，它們成就了今日的一格平臺(tái)。

在不斷修煉技術(shù)內(nèi)功的同時(shí)，百度還致力于構(gòu)建生態(tài)完整的開(kāi)放社區(qū)，將大模型的能力釋放給普通人。更具體地講，百度為開(kāi)發(fā)者、廣大科技愛(ài)好者提供飛槳開(kāi)源工具和文心大模型 API 服務(wù)能力，滿足他們多樣化的創(chuàng)意探索需求。

一方面，開(kāi)發(fā)者可以在飛槳 PaddleHub 上直接調(diào)用相關(guān)的開(kāi)源模型，享受極簡(jiǎn)易用的開(kāi)發(fā)體驗(yàn)，并綜合使用提供的 400 多個(gè) AI 開(kāi)源模型，組合開(kāi)發(fā)有趣的 AI 應(yīng)用，滿足更多藝術(shù)從業(yè)者、開(kāi)發(fā)者對(duì)圖片生成場(chǎng)景的需求；另一方面，文圖生成大模型 ERNIE-ViLG 為開(kāi)發(fā)者提供了 API 體驗(yàn)調(diào)用的入口，登陸飛槳旸谷社區(qū) API 體驗(yàn)專區(qū)即可體驗(yàn)其前沿技術(shù)能力，并能夠靈活方便、高效快速將文圖生成大模型能力集成到產(chǎn)品中。

從之前數(shù)字人度曉曉的作詞編曲、寫(xiě)作繪畫(huà)，到 AI 修復(fù)傳世名畫(huà)《富春山居圖》，大模型賦能下的 AIGC 早已成為近來(lái)百度 AI 技術(shù)加速落地的著陸點(diǎn)。得益于持續(xù)創(chuàng)新的大模型技術(shù)，百度不斷拓寬 AIGC 的適用范圍，并努力發(fā)掘更多樣化的內(nèi)容生產(chǎn)方式。

此次，百度在為用戶提供 ERNIE-ViLG API 體驗(yàn)智能作畫(huà)的基礎(chǔ)上更進(jìn)一步，用一格這個(gè)面向創(chuàng)意內(nèi)容的產(chǎn)品級(jí)綜合文生圖平臺(tái)，為 AIGC 注入了更多活力和想象空間。在可預(yù)見(jiàn)的未來(lái)，一格生成的超寫(xiě)實(shí)與藝術(shù)畫(huà)作，既有可能像度曉曉「無(wú)界」系列畫(huà)作一樣成為熱賣(mài)的數(shù)字藏品，還可以用作契合電影、動(dòng)漫主題的封面大作，更有望在游戲、元宇宙的多樣化動(dòng)態(tài)場(chǎng)景畫(huà)面中找到用武之地。

總之，在新的內(nèi)容創(chuàng)意和方式不斷涌現(xiàn)的當(dāng)下，AIGC 絕不應(yīng)只停留在玩一玩、看一看的階段，未來(lái)一定會(huì)在特定的應(yīng)用場(chǎng)景中為生產(chǎn)者創(chuàng)造價(jià)值，既可以是藝術(shù)上的，也可以是物質(zhì)上的。

關(guān)鍵詞：創(chuàng)意有瓶頸嗎百度文心一格不存在動(dòng)動(dòng)手指片刻生成