DALL-E發(fā)明者受訪:我對其兩年來產(chǎn)生的影響感到驚訝

發(fā)布時間:2023-01-24 12:30:15  |  來源:騰訊網(wǎng)  

選自VentureBeat

作者:Sharon Goldman


(資料圖片僅供參考)

機器之心編譯

編輯:袁銘懌

DALL-E 等生成式模型的「高光時刻」已經(jīng)出現(xiàn),作為發(fā)明者,Ramesh 表示:「我們第一次嘗試這個研究方向,是想看看能有什么作為?,F(xiàn)在想來,恍如昨日?!?/p>

OpenAI 研究員、DALL-E 發(fā)明者和 DALL-E 2 聯(lián)合開發(fā)者 Aditya Ramesh(圖源自 OpenAI)。

在 DALL-E 2、Stable Diffusion 和 Midjourney 出現(xiàn)之前,該領(lǐng)域僅有一篇論文,即《零樣本文本到圖像生成》(Zero-Shot Text-to-Image Generation)。

2021 年 1 月 5 日,也就是兩年前,隨著這篇論文和網(wǎng)站演示的發(fā)布,OpenAI 推出了 DALL-E—— 可以「根據(jù)文本說明為各種用自然語言表達(dá)的概念創(chuàng)建圖像」的神經(jīng)網(wǎng)絡(luò)。而據(jù)報道,OpenAI 近日正在就「估值為 290 億美元的收購要約」進行談判。

圖源自 DALL-E。

經(jīng)過訓(xùn)練,Transformer 語言模型 GPT-3 的 120 億參數(shù)版本可以使用文本圖像對數(shù)據(jù)集從文本描述中生成圖像。VentureBeat 記者 Khari Johnson 在描述時說,其「旨在喚起藝術(shù)家 Salvador Dali 和機器人 WALL-E」,并附上了 DALL-E 生成的「穿著芭蕾舞裙的小白蘿卜遛狗」的插圖。

OpenAI 研究員、DALL-E 的發(fā)明者和 DALL-E 2 的聯(lián)合開發(fā)者 Aditya Ramesh 表示,自那以后,整個領(lǐng)域便取得了飛速的發(fā)展。鑒于過去一年生成式 AI 領(lǐng)域取得了飛速的發(fā)展,這算是一種很保守的說辭。隨后便是擴散模型的迅速崛起,其出現(xiàn)改變了去年 4 月發(fā)布的 DALL-E 2,以及它的開源對手:Diffusion 和 Midjourney 原有的格局。

Ramesh 告訴 VentureBeat:「我們第一次嘗試這個研究方向,想看看能有什么作為,現(xiàn)在感覺恍如昨日。我知道這項技術(shù)將會對消費者產(chǎn)生影響,也會幫助到并對許多不同的應(yīng)用程序,但我仍然對其發(fā)展速度之快感到驚訝?!?/p>

如今,生成式模型正在逐漸發(fā)展到「圖像生成和多種模態(tài)的高光時刻」。他說:「我很高興能夠為所有這些即將出現(xiàn)的應(yīng)用做點什么。」

與 CLIP 合作開發(fā)的原創(chuàng)研究

CLIP 是與 DALL-E 1 研究共同開發(fā)和公布的,它是一個基于零樣本學(xué)習(xí)的獨立模型,實際上算是 DALL-E 的秘密武器。CLIP 從互聯(lián)網(wǎng)上獲取了 4 億對帶有文字說明的圖像進行訓(xùn)練,能夠使用自然語言進行分類基準(zhǔn)測試并對 DALL-E 結(jié)果進行排名。

當(dāng)然,很多早期跡象表明,當(dāng)前即將迎來文字到圖像的進步。英屬哥倫比亞大學(xué)(University of British Columbia)的計算機科學(xué)副教授 Jeff Clune 說道:「多年來的研究顯示,這種未來近在咫尺?!?016 年,他的團隊制作出了他所說的第一批與真實圖像難以分辨的合成圖像。

他說:「我的意思是,幾年后,人們可以描述任何想要的圖像,然后由 AI 來生成它,比如特朗普面帶假笑地接受普京的賄賂。」

Air Street Capital 的合伙人 Nathan Benaich 認(rèn)為,生成式 AI 自始至終都是 AI 的核心部分。他在接受 VentureBeat 采訪時表示:「值得一提的是,2014 年生成式對抗網(wǎng)絡(luò)(GANs)的開發(fā)和 DeepMind 2016 年的 WaveNet 等研究已經(jīng)開始展示 AI 模型如何分別從頭生成新的圖像和音頻?!?/p>

盡管如此,最初的 DALL-E 論文「在當(dāng)時給人留下了深刻的印象」,未來學(xué)家、作家和 AI 研究員 Matt White 補充道。他說:「雖然這不是文本到圖像合成領(lǐng)域的首項工作,但 OpenAI 不僅僅向 AI 研究領(lǐng)域推廣他們工作的方法,更是將推廣范圍擴大到公眾層面,這自然也是其頗受關(guān)注的原因所在?!?/p>

盡可能地推動 DALL-E 研究

Ramesh 說,他的初心始終是盡可能地推動這項研究。

他說:「我們覺得文本到圖像的生成很有意思,作為人類,我們能夠通過一句話來描述我們在現(xiàn)實生活中可能遇到的任何情況,也可以是不可能發(fā)生的幻想場景,或者是瘋狂的幻想。所以我們想看看我們訓(xùn)練的模型是否能得當(dāng)?shù)貜奈谋局猩蓤D像,并且和人類一樣做出推斷。」

Ramesh 還補充道,對原始 DALL-E 的主要研究影響之一是 VQ-VAE,這是一種由 DeepMind 研究人員 Aaron van den Oord 首創(chuàng)的技術(shù):像語言模型所訓(xùn)練的 token 一樣,將圖像也分解為 token。

他解釋說:「所以我們可以采用像 GPT 這樣的 transformer,訓(xùn)練它的目的是為了預(yù)測下一個單詞,并用這些額外的圖像 token 來增強它的語言 token。這讓我們可以應(yīng)用同樣的技術(shù)來生成圖像?!?/p>

他說,DALL-E 會帶給人們驚喜,因為「在語言模型中看到泛化的例子是一回事,但當(dāng)在圖像生成中看到它時,它就會更加直觀且具有更深的影響力?!?/p>

DALL-E 2 向擴散模型的轉(zhuǎn)變

但最初 DALL-E 研究發(fā)表時,Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已經(jīng)在研究在 GLIDE(一種新的 OpenAI 擴散模型)的修改版本中使用擴散模型。

這導(dǎo)致 DALL-E 2 的架構(gòu)與第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解釋的那樣,「DALL-E 1 使用離散變分自編碼器 (dVAE)、下一個 token 預(yù)測和 CLIP 模型重新排序,而 DALL-E 2 直接使用 CLIP 嵌入,并通過類似 GLIDE 的擴散來解碼圖像?!?/p>

Ramesh 說:「將擴散模型和 DALL-E 結(jié)合起來,看似是一件自然而然的事,因為擴散模型有很多優(yōu)點,其中最明顯的特點是用擴散模型能夠利落而又巧妙地修復(fù)圖像?!?/p>

他解釋道,在 DALL-E 2 中加入了在開發(fā) GLIDE 時使用的一種特殊技術(shù) —— 無分類器指導(dǎo) —— 這大大改進了字幕的匹配度以及真實感。

「當(dāng) Alex 第一次嘗試時,沒有人想到結(jié)果會有這么大的改善。我最初只期望 DALL-E 2 能成為 DALL-E 的更新版本,但讓我驚訝的是,它已經(jīng)開始讓用戶受益了。」

2022 年 4 月 6 日,當(dāng) AI 社群和普通用戶第一次看到 DALL-E 2 的圖像輸出時,他們中的大部分都驚嘆于圖像質(zhì)量的差異。

圖源自 DALL-E 2。

「競爭激烈,喜憂參半」

Hugging Face 的首席倫理科學(xué)家 Margaret Mitchell 在電子郵件告訴 VentureBeat,2021 年 1 月發(fā)布的 DALL-E 是第一波文本到圖像研究的浪潮,這些研究建立在語言和圖像處理的基本進展之上,包括變分自動編碼器和 autoregressive transformers。DALL-E 2 發(fā)布時,「擴散是我們行內(nèi)人意料之外的突破,它切實地提升了游戲質(zhì)量,」她說。

她補充說,自從最初的 DALL-E 研究論文發(fā)表以來,過去兩年一直是「競爭激烈,喜憂參半」。

「對如何建立語言和圖像模型的關(guān)注是以如何最好地獲取模型的數(shù)據(jù)為代價的,」她還指出,在現(xiàn)代文本到圖像的進展中,個人權(quán)利和同意「幾乎被拋棄了」。目前的系統(tǒng)「基本上是在竊取藝術(shù)家的概念,而沒有為藝術(shù)家提供任何追索權(quán),」她如此總結(jié)道。

DALL-E 沒有公開源代碼,這導(dǎo)致其他系統(tǒng)開發(fā)了開源的文本轉(zhuǎn)圖像選項,這在 2022 年夏天前引起了轟動。

最初的 DALL-E「很有意思,但無法使用」,Stability AI 的創(chuàng)始人 Emad Mostaque 說,他在 8 月發(fā)布了開源文本到圖像生成器 Stable Diffusion 的第一個迭代,并說「只有我的團隊訓(xùn)練的模型可以稱作開源」。Mostaque 補充說:「我們從 2021 年夏天開始積極資助和支持它?!?/p>

展望未來,White 認(rèn)為,即使不久將要迎來新一代,DALL-E 的未來依舊任重而道遠(yuǎn)。

「DALL-E 2 在穩(wěn)定性、質(zhì)量和道德層面都存在問題,」,他指出,這些問題是相互交織且互相影響的,像「一只棕色的狗穿著紅襯衫」這樣的 prompt 可能會產(chǎn)生屬性顛倒的結(jié)果(即紅狗穿棕色襯衫,紅狗穿紅色襯衫或完全不同的顏色)。此外,他補充道,DALL-E 2 在面部和身體構(gòu)造、圖像文本生成的一致性方面仍然存在困難,「特別是當(dāng)遇到較長的單詞時?!?/p>

DALL-E 和生成式 AI 的未來

Ramesh 希望更多的人了解到 DALL-E 2 的技術(shù)工作原理,這樣可以消除很多誤解。

他說:「在大眾眼里。這個模型的工作方式是:它在某處有個圖像數(shù)據(jù)庫,它生成圖像的方式是將這些圖像片段剪切粘貼在一起,從而創(chuàng)造出新的東西。但實際上,它的工作方式更接近于人類,當(dāng)模型接受圖像訓(xùn)練時,它會學(xué)習(xí)所有這些概念的抽象表征?!?/p>

他還解釋道:「在我們從頭開始生成圖像時,我們不再使用訓(xùn)練數(shù)據(jù)。擴散模型從他們試圖生成物的模糊近似開始,經(jīng)過多重步驟,逐步添加細(xì)節(jié),就像藝術(shù)家總是從一個粗略的草圖開始發(fā)揮,隨著時間的推移再慢慢充實他的作品?!?/p>

他說,助藝術(shù)家創(chuàng)作一臂之力也是 DALL-E 自始至終的目標(biāo)。

「過去,我們熱切地希望這些模型能成為藝術(shù)家的得力助手 —— 成為可以讓許多日常任務(wù)變得更簡單、更有效率的得力工具,就像 Codex 是程序員的副駕駛一樣。據(jù)我們所知,一些藝術(shù)家認(rèn)為在創(chuàng)建想法原型時,DALL-E 非常有用,因為他們通常會花幾個小時甚至幾天的時間來探索某個概念,隨后才決定采用它,而 DALL-E 可以將這個過程縮短至幾個小時甚至是幾分鐘?!?/p>

Ramesh 說,他希望越來越多的人能夠在學(xué)習(xí)和探索過程中逐漸學(xué)會應(yīng)用 DALL-E 和其他生成式 AI 工具。

「通過(OpenAI 的)ChatGPT,我認(rèn)為我們已經(jīng)極大地擴展了這些 AI 工具的功能,并讓很多人接觸到它。希望隨著時間的推移,那些想運用我們的技術(shù)做事的人可以很毫不費力地通過我們的網(wǎng)站獲取它,并找到方法來使用其構(gòu)建出他們心中所想?!?/p>

關(guān)鍵詞: DALL-E發(fā)明者受訪我對其兩年來產(chǎn)生的影響感到驚訝

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com