久久综合精品国产一区二区三区无,亚洲中文精品视频在线,粉嫩av

選自VentureBeat

作者：Sharon Goldman

(資料圖片僅供參考)

機器之心編譯

編輯：袁銘懌

DALL-E 等生成式模型的「高光時刻」已經(jīng)出現(xiàn)，作為發(fā)明者，Ramesh 表示：「我們第一次嘗試這個研究方向，是想看看能有什么作為?，F(xiàn)在想來，恍如昨日?！?/p>

OpenAI 研究員、DALL-E 發(fā)明者和 DALL-E 2 聯(lián)合開發(fā)者 Aditya Ramesh（圖源自 OpenAI）。

在 DALL-E 2、Stable Diffusion 和 Midjourney 出現(xiàn)之前，該領(lǐng)域僅有一篇論文，即《零樣本文本到圖像生成》（Zero-Shot Text-to-Image Generation）。

2021 年 1 月 5 日，也就是兩年前，隨著這篇論文和網(wǎng)站演示的發(fā)布，OpenAI 推出了 DALL-E—— 可以「根據(jù)文本說明為各種用自然語言表達(dá)的概念創(chuàng)建圖像」的神經(jīng)網(wǎng)絡(luò)。而據(jù)報道，OpenAI 近日正在就「估值為 290 億美元的收購要約」進行談判。

圖源自 DALL-E。

經(jīng)過訓(xùn)練，Transformer 語言模型 GPT-3 的 120 億參數(shù)版本可以使用文本圖像對數(shù)據(jù)集從文本描述中生成圖像。VentureBeat 記者 Khari Johnson 在描述時說，其「旨在喚起藝術(shù)家 Salvador Dali 和機器人 WALL-E」，并附上了 DALL-E 生成的「穿著芭蕾舞裙的小白蘿卜遛狗」的插圖。

OpenAI 研究員、DALL-E 的發(fā)明者和 DALL-E 2 的聯(lián)合開發(fā)者 Aditya Ramesh 表示，自那以后，整個領(lǐng)域便取得了飛速的發(fā)展。鑒于過去一年生成式 AI 領(lǐng)域取得了飛速的發(fā)展，這算是一種很保守的說辭。隨后便是擴散模型的迅速崛起，其出現(xiàn)改變了去年 4 月發(fā)布的 DALL-E 2，以及它的開源對手：Diffusion 和 Midjourney 原有的格局。

Ramesh 告訴 VentureBeat：「我們第一次嘗試這個研究方向，想看看能有什么作為，現(xiàn)在感覺恍如昨日。我知道這項技術(shù)將會對消費者產(chǎn)生影響，也會幫助到并對許多不同的應(yīng)用程序，但我仍然對其發(fā)展速度之快感到驚訝?！?/p>

如今，生成式模型正在逐漸發(fā)展到「圖像生成和多種模態(tài)的高光時刻」。他說：「我很高興能夠為所有這些即將出現(xiàn)的應(yīng)用做點什么。」

與 CLIP 合作開發(fā)的原創(chuàng)研究

CLIP 是與 DALL-E 1 研究共同開發(fā)和公布的，它是一個基于零樣本學(xué)習(xí)的獨立模型，實際上算是 DALL-E 的秘密武器。CLIP 從互聯(lián)網(wǎng)上獲取了 4 億對帶有文字說明的圖像進行訓(xùn)練，能夠使用自然語言進行分類基準(zhǔn)測試并對 DALL-E 結(jié)果進行排名。

當(dāng)然，很多早期跡象表明，當(dāng)前即將迎來文字到圖像的進步。英屬哥倫比亞大學(xué)（University of British Columbia）的計算機科學(xué)副教授 Jeff Clune 說道：「多年來的研究顯示，這種未來近在咫尺?！?016 年，他的團隊制作出了他所說的第一批與真實圖像難以分辨的合成圖像。

他說：「我的意思是，幾年后，人們可以描述任何想要的圖像，然后由 AI 來生成它，比如特朗普面帶假笑地接受普京的賄賂。」

Air Street Capital 的合伙人 Nathan Benaich 認(rèn)為，生成式 AI 自始至終都是 AI 的核心部分。他在接受 VentureBeat 采訪時表示：「值得一提的是，2014 年生成式對抗網(wǎng)絡(luò)（GANs）的開發(fā)和 DeepMind 2016 年的 WaveNet 等研究已經(jīng)開始展示 AI 模型如何分別從頭生成新的圖像和音頻?！?/p>

盡管如此，最初的 DALL-E 論文「在當(dāng)時給人留下了深刻的印象」，未來學(xué)家、作家和 AI 研究員 Matt White 補充道。他說：「雖然這不是文本到圖像合成領(lǐng)域的首項工作，但 OpenAI 不僅僅向 AI 研究領(lǐng)域推廣他們工作的方法，更是將推廣范圍擴大到公眾層面，這自然也是其頗受關(guān)注的原因所在?！?/p>

盡可能地推動 DALL-E 研究

Ramesh 說，他的初心始終是盡可能地推動這項研究。

他說：「我們覺得文本到圖像的生成很有意思，作為人類，我們能夠通過一句話來描述我們在現(xiàn)實生活中可能遇到的任何情況，也可以是不可能發(fā)生的幻想場景，或者是瘋狂的幻想。所以我們想看看我們訓(xùn)練的模型是否能得當(dāng)?shù)貜奈谋局猩蓤D像，并且和人類一樣做出推斷。」

Ramesh 還補充道，對原始 DALL-E 的主要研究影響之一是 VQ-VAE，這是一種由 DeepMind 研究人員 Aaron van den Oord 首創(chuàng)的技術(shù)：像語言模型所訓(xùn)練的 token 一樣，將圖像也分解為 token。

他解釋說：「所以我們可以采用像 GPT 這樣的 transformer，訓(xùn)練它的目的是為了預(yù)測下一個單詞，并用這些額外的圖像 token 來增強它的語言 token。這讓我們可以應(yīng)用同樣的技術(shù)來生成圖像?！?/p>

他說，DALL-E 會帶給人們驚喜，因為「在語言模型中看到泛化的例子是一回事，但當(dāng)在圖像生成中看到它時，它就會更加直觀且具有更深的影響力?！?/p>

DALL-E 2 向擴散模型的轉(zhuǎn)變

但最初 DALL-E 研究發(fā)表時，Ramesh 的 DALL-E 2 合著者 Alex Nichol 和 Prafulla Dhariwal 已經(jīng)在研究在 GLIDE（一種新的 OpenAI 擴散模型）的修改版本中使用擴散模型。

這導(dǎo)致 DALL-E 2 的架構(gòu)與第一次迭代的 DALL-E 完全不同。正如 Vasclav Kosar 解釋的那樣，「DALL-E 1 使用離散變分自編碼器 (dVAE)、下一個 token 預(yù)測和 CLIP 模型重新排序，而 DALL-E 2 直接使用 CLIP 嵌入，并通過類似 GLIDE 的擴散來解碼圖像?！?/p>

Ramesh 說：「將擴散模型和 DALL-E 結(jié)合起來，看似是一件自然而然的事，因為擴散模型有很多優(yōu)點，其中最明顯的特點是用擴散模型能夠利落而又巧妙地修復(fù)圖像?！?/p>

他解釋道，在 DALL-E 2 中加入了在開發(fā) GLIDE 時使用的一種特殊技術(shù) —— 無分類器指導(dǎo) —— 這大大改進了字幕的匹配度以及真實感。

「當(dāng) Alex 第一次嘗試時，沒有人想到結(jié)果會有這么大的改善。我最初只期望 DALL-E 2 能成為 DALL-E 的更新版本，但讓我驚訝的是，它已經(jīng)開始讓用戶受益了。」

2022 年 4 月 6 日，當(dāng) AI 社群和普通用戶第一次看到 DALL-E 2 的圖像輸出時，他們中的大部分都驚嘆于圖像質(zhì)量的差異。

圖源自 DALL-E 2。

「競爭激烈，喜憂參半」

Hugging Face 的首席倫理科學(xué)家 Margaret Mitchell 在電子郵件告訴 VentureBeat，2021 年 1 月發(fā)布的 DALL-E 是第一波文本到圖像研究的浪潮，這些研究建立在語言和圖像處理的基本進展之上，包括變分自動編碼器和 autoregressive transformers。DALL-E 2 發(fā)布時，「擴散是我們行內(nèi)人意料之外的突破，它切實地提升了游戲質(zhì)量，」她說。

她補充說，自從最初的 DALL-E 研究論文發(fā)表以來，過去兩年一直是「競爭激烈，喜憂參半」。

「對如何建立語言和圖像模型的關(guān)注是以如何最好地獲取模型的數(shù)據(jù)為代價的，」她還指出，在現(xiàn)代文本到圖像的進展中，個人權(quán)利和同意「幾乎被拋棄了」。目前的系統(tǒng)「基本上是在竊取藝術(shù)家的概念，而沒有為藝術(shù)家提供任何追索權(quán)，」她如此總結(jié)道。

DALL-E 沒有公開源代碼，這導(dǎo)致其他系統(tǒng)開發(fā)了開源的文本轉(zhuǎn)圖像選項，這在 2022 年夏天前引起了轟動。

最初的 DALL-E「很有意思，但無法使用」，Stability AI 的創(chuàng)始人 Emad Mostaque 說，他在 8 月發(fā)布了開源文本到圖像生成器 Stable Diffusion 的第一個迭代，并說「只有我的團隊訓(xùn)練的模型可以稱作開源」。Mostaque 補充說:「我們從 2021 年夏天開始積極資助和支持它?！?/p>

展望未來，White 認(rèn)為，即使不久將要迎來新一代，DALL-E 的未來依舊任重而道遠(yuǎn)。

「DALL-E 2 在穩(wěn)定性、質(zhì)量和道德層面都存在問題，」，他指出，這些問題是相互交織且互相影響的，像「一只棕色的狗穿著紅襯衫」這樣的 prompt 可能會產(chǎn)生屬性顛倒的結(jié)果（即紅狗穿棕色襯衫，紅狗穿紅色襯衫或完全不同的顏色）。此外，他補充道，DALL-E 2 在面部和身體構(gòu)造、圖像文本生成的一致性方面仍然存在困難，「特別是當(dāng)遇到較長的單詞時?！?/p>

DALL-E 和生成式 AI 的未來

Ramesh 希望更多的人了解到 DALL-E 2 的技術(shù)工作原理，這樣可以消除很多誤解。

他說：「在大眾眼里。這個模型的工作方式是：它在某處有個圖像數(shù)據(jù)庫，它生成圖像的方式是將這些圖像片段剪切粘貼在一起，從而創(chuàng)造出新的東西。但實際上，它的工作方式更接近于人類，當(dāng)模型接受圖像訓(xùn)練時，它會學(xué)習(xí)所有這些概念的抽象表征?！?/p>

他還解釋道：「在我們從頭開始生成圖像時，我們不再使用訓(xùn)練數(shù)據(jù)。擴散模型從他們試圖生成物的模糊近似開始，經(jīng)過多重步驟，逐步添加細(xì)節(jié)，就像藝術(shù)家總是從一個粗略的草圖開始發(fā)揮，隨著時間的推移再慢慢充實他的作品?！?/p>

他說，助藝術(shù)家創(chuàng)作一臂之力也是 DALL-E 自始至終的目標(biāo)。

「過去，我們熱切地希望這些模型能成為藝術(shù)家的得力助手 —— 成為可以讓許多日常任務(wù)變得更簡單、更有效率的得力工具，就像 Codex 是程序員的副駕駛一樣。據(jù)我們所知，一些藝術(shù)家認(rèn)為在創(chuàng)建想法原型時，DALL-E 非常有用，因為他們通常會花幾個小時甚至幾天的時間來探索某個概念，隨后才決定采用它，而 DALL-E 可以將這個過程縮短至幾個小時甚至是幾分鐘?！?/p>

Ramesh 說，他希望越來越多的人能夠在學(xué)習(xí)和探索過程中逐漸學(xué)會應(yīng)用 DALL-E 和其他生成式 AI 工具。

「通過（OpenAI 的）ChatGPT，我認(rèn)為我們已經(jīng)極大地擴展了這些 AI 工具的功能，并讓很多人接觸到它。希望隨著時間的推移，那些想運用我們的技術(shù)做事的人可以很毫不費力地通過我們的網(wǎng)站獲取它，并找到方法來使用其構(gòu)建出他們心中所想?！?/p>

關(guān)鍵詞： DALL-E發(fā)明者受訪我對其兩年來產(chǎn)生的影響感到驚訝