觀點丨DALL-E 2、AI研究的未來以及OpenAI的商業(yè)前景

發(fā)布時間:2022-04-17 09:40:17  |  來源:騰訊網  

作者:Ben Dickson

譯者:青蘋果

因為DALL-E 2,OpenAI最近再次占領新聞頭版。

這種ML模型,可以從文本描述生成令人驚嘆的圖像。DALL-E 2是以其前身DALL-E的成功為基礎,并得益于先進的深度學習技術,極大提高了輸出圖像的質量和分辨率。

在DALL-E 2發(fā)布的同時,OpenAI的工程師和首席執(zhí)行官 Sam Altman 也在社交媒體上發(fā)起了一場活動,他在Twitter上分享了由生成機器學習模型創(chuàng)建的精彩照片。

當然,DALL-E 2也揭示了AI研究社區(qū)在利用深度學習的力量和解決其局限性等方面所取得的進展。除此之外,它還提供了生成式深度學習模型供個人使用的一些展望,比如如何最實現(xiàn)新的創(chuàng)意應用程序等。

但與此同時,它的問世也提醒著我們,AI研究中仍存留著一些障礙和亟待解決的爭議。

DALL-E 2的驚人之處

DALL-E 2已經發(fā)布了詳細的論文和交互式博客文章,詳盡展示了ML模型的工作原理。另外,還附加了概述該技術功能和局限性的視頻講解。

根據(jù)這些內容我們都能知道,DALL-E 2不僅是一種“生成模型”,它可以創(chuàng)建復雜的輸出,而不是對輸入數(shù)據(jù)執(zhí)行預測或分類任務。簡單來說,只要你為DALL-E 2提供了一段文本描述,那么它便會直接生成符合該描述的圖像。

毋庸置疑,生成模型作為熱門的研究領域,隨著2014年生成式對抗網絡(GAN, Generative Adversarial Networks)而備受關注。近年來,該領域取得了巨大的進步,而且目前生成模型已廣泛流行于各種各樣的任務,包括人臉生成、換臉技術、聲音合成等。

然而,DALL-E 2與其他生成模型的不同之處在于,它可以在創(chuàng)建的圖像中保持語義的一致性。

例如,以下圖片(源自DALL-E 2博客文章)是由描述“宇航員騎馬”生成的。其中一份描述以“鉛筆畫”結尾,另一份以“寫實風格”收官。

該模型在繪制坐在馬背上的宇航員時,將其手放在前面,保持了一致性。當然,這種一致性也在OpenAI分享的大多數(shù)例子中有所體現(xiàn)。

以下示例(也來自OpenAI的網站)展示了DALL-E 2的另一個特性,即生成輸入圖像的變體。這里,你不是向DALL-E 2提供帶有文本描述,而是提供圖像,它會嘗試生成相同圖像的其他形式。而且,DALL-E可以做到保持圖片中各個元素之間的關系,包括女孩,筆記本電腦,耳機,貓,背景中的城市燈光以及掛有月亮和云彩的夜空。

其他例子也有力地表明,DALL-E 2似乎能夠理解深度和維度的概念,這對于處理2D圖像的算法而言,無疑是個巨大的挑戰(zhàn)。

即使OpenAI網站的例子是精心挑選的,它們也令人印象深刻。Twitter上分享的例子顯示,DALL-E 2似乎已經找到了一種方法來表示和再現(xiàn)圖像中出現(xiàn)的元素之間的關系

DALL-E 2背后的學問

DALL-E 2利用了對比學習圖像預訓練(CLIP, Contrastive Learning-Image Pre-training)和擴散(diffusion)模型,這是過去幾年創(chuàng)建的兩種先進的深度學習技術。但究其核心,它與所有其他深度神經網絡具有相同的概念:表示學習。

考慮一個圖像分類模型。神經網絡將像素顏色轉換成一組表示其特征的數(shù)字。此向量有時也被稱為輸入的“嵌入”。然后將這些特征映射到輸出層,該層包含模型應檢測的每類圖像的概率分數(shù)。在訓練期間,神經網絡會試圖學習區(qū)分類的最佳特征表示。

理想情況下,ML模型應該能夠學習在不同光照條件、角度和背景環(huán)境下保持一致的潛在特征。

但正如我們經常看到的那樣,深度學習模型經常學習錯誤的表征。例如,神經網絡可能認為綠色像素是“綿羊”類的特征,因為它在訓練中看到的所有綿養(yǎng)的圖像都包含大量的青草。另一個以夜間拍攝的蝙蝠照片為訓練數(shù)據(jù)的模型,可能會認為黑暗才是所有蝙蝠照片的重要特征,并對白天拍攝的蝙蝠照片產生錯誤分類。其他模型可能會對位于圖像中心并放置在某種類型背景前面的對象變得敏感。

學習錯誤的表征是神經網絡脆弱、對環(huán)境變化敏感,并且在訓練數(shù)據(jù)之外泛化能力差的部分原因。這也是為什么針對一個應用程序訓練的神經網絡需要針對其他應用程序進行微調的原因——神經網絡的最后層通常具有高度特定于某些任務的特征,而導致無法推廣到其他應用程序。

理論上,你可以創(chuàng)建一個規(guī)模龐大的訓練數(shù)據(jù)集,其中包含神經網絡應該能夠處理的各種數(shù)據(jù)變體。但是創(chuàng)建和標記這樣的數(shù)據(jù)集需要大量的人力資源,而且?guī)缀跏遣豢赡軐崿F(xiàn)的。

這就是CLIP所要解決的問題。CLIP在圖像及其標題上并行訓練兩個神經網絡。具體來說,其中一個網絡學習圖像中的視覺表征,另一個學習相應地文本表征。在訓練期間,兩個網絡嘗試不斷調整其參數(shù),以便于相似的圖像和描述能夠產生相似的嵌入。

CLIP的主要優(yōu)勢之一是,它不需要為特定應用程序標記其訓練數(shù)據(jù)。它可以在網絡中海量的圖像和松散的描述中進行訓練。

此外,沒有了經典類別的嚴格邊界,CLIP可以學習更靈活的表示,并將其推廣到各種各樣的任務之中。例如,如果一幅圖片被描述為“一個男孩抱著一只小狗”,而另一幅圖片被描述為“一個男孩騎著一匹小馬”,那么模型將能夠更準確地詮釋出“男孩”是什么,以及它與圖像中其他元素的關系。

CLIP已被證明對于零樣本學習(zero-shot learning)和少樣本學習(few-shot learning)非常有用,其中一種ML模型可以當場演示,執(zhí)行其從未接受過訓練的任務。

在DALL-E 2中使用的另一種ML技術是“擴散”,這是一種生成模型,通過逐漸對訓練示例加噪和去噪來學習創(chuàng)建圖像。擴散模型類似于自動編碼器,可以將輸入數(shù)據(jù)轉換為嵌入表示,然后從嵌入信息中再現(xiàn)原始數(shù)據(jù)。

DALL-E首先在圖像和標題上訓練CLIP模型,然后使用CLIP模型訓練擴散模型。基本上,擴散模型使用CLIP模型為文本提示及其相應的圖像生成嵌入,隨后再嘗試生成與文本對應的圖像。

爭議所在

目前,DALL-E 2僅對已注冊候補名單的有限數(shù)量用戶開放。

自GPT-2發(fā)布以來,OpenAI一直不愿向公眾發(fā)布其AI模型??梢哉f,GPT-3是其最前沿的語言模型,但其局限卻始終未能打破,只能通過API接口使用,無法訪問模型的實際代碼和參數(shù)。

OpenAI不向公眾發(fā)布模型的政策并未得到AI社區(qū)的好評,甚至還引發(fā)了該領域一些知名人士的批評。

下圖便是特斯拉AI總監(jiān)Andrej Karpathy 的調侃:AI API的調用已經從可以在你的電腦運行變成了你需要在推特上讓作者幫你運行。

與此同時,DALL-E 2長期以來對通用人工智能(AGI, Artificial General Intelligence)首選方法的分歧也浮出水面。

OpenAI的最新創(chuàng)新無疑已經證明,通過正確的架構和歸納偏見,你仍然可以從神經網絡中擠出更多的知識。

純深度學習方法的支持者抓住這個機會,以對其批評者投向了輕視的目光,包括認知科學家Gary Marcus最近發(fā)表的一篇題為 Deep Learning is Hitting a Wall的文章。Marcus支持一種將神經網絡與符號系統(tǒng)結合起來的混合方法。

根據(jù)OpenAI團隊分享的示例,DALL-E 2似乎展示了深度學習系統(tǒng)中長期以來一直缺失的某種常識能力。但這一常識和語義穩(wěn)定性的深度,以及DALL-E 2及其后繼版本將如何處理更復雜的概念,如組合性,仍有待觀察。

DALL-E 2論文提到了該模型在生成文本和復雜場景方面的一些局限性。在回應推文時,Marcus曾指出,DALL-E 2論文實際上證明了他在論文和論文中提出的一些觀點。

一些科學家指出,盡管DALL-E 2的結果令人著迷,但AI的一些關鍵挑戰(zhàn)仍未解決。

圣達菲研究所(the Santa Fe Institute)復雜性研究教授、《人工智能:人類思考的指南》(Artificial Intelligence: A Guide For Thinking Humans)一書的作者梅拉妮·米歇爾(Melanie Mitchell)在Twitter上列出了一些重要問題。

其中,Mitchell提到了邦加德問題(Bongard problems),這是一組對概念理解的測試挑戰(zhàn),如同一性、鄰接性、數(shù)量性、凹凸性和封閉性/開放性等等。

Mitchell在推特上寫道:“由于我們擁有基本概念的核心知識,以及靈活抽象和類比的能力,人類是能夠解決這些視覺難題的?!薄叭绻麆?chuàng)建出這樣一個AI系統(tǒng),我會相信該領域正在朝著人類智能水平的方向取得真正的進展。在那之前,我會由衷敬佩ML和大數(shù)據(jù)的這些令人震撼的產品,而不會將其再誤認為是向通用智能的邁進?!?/p>

DALL-E 2的商業(yè)案例

OpenAI從非營利轉向“有限盈利”(capped profit)結構以來,一直在努力尋找科研和產品開發(fā)之間的平衡點。該公司與微軟的戰(zhàn)略合作伙伴關系為其部分技術的變現(xiàn),包括GPT-3和Codex在內,提供了堅實的渠道。

在一篇博客文章中,Altman建議在夏季推出DALL-E 2產品。許多分析師已經在為DALL-E 2應用提出了建議,比如為文章創(chuàng)建圖形和對圖像進行基本編輯。DALL-E 2將使更多的人能夠表達自己的創(chuàng)造力,而無需再借助工具的特殊技能。

Altman表示,AI的進步正把我們帶向“一個嶄新的世界,在這個世界里,我們做事的極限取決于創(chuàng)意點,而非特定的技能?!?/p>

隨著越來越多的用戶對DALL-E進行改進升級,相信一批有趣的應用程序也會不斷的涌現(xiàn)出來。例如,當用戶開始使用GPT-3生成軟件源代碼時,Copilot和Codex的想法便會應運而生。

如果OpenAI像GPT-3那樣發(fā)布付費API服務,那么更多地人將會選擇用DALL-E 2構建應用程序,或者將該技術集成到現(xiàn)有的應用程序中。但與GPT-3的情況一樣,圍繞潛在的DALL-E 2產品建立商業(yè)模型將會形成獨特的挑戰(zhàn)。這在很大程度上取決于訓練和運行DALL-E 2的成本,具體細節(jié)尚未公布。

而且,作為GPT-3技術的獨家許可持有者,微軟將成為基于DALL-E 2構建創(chuàng)新的主要贏家。原因在于,它可以用更高效且低成本的方式完成這項工作。

與GPT-3一樣,DALL-E 2也在給人們敲響了警鐘,隨著AI社區(qū)繼續(xù)傾向于在更大的訓練數(shù)據(jù)集上創(chuàng)建更大規(guī)模的神經網絡,那么不可避免地,話語權將繼續(xù)被少數(shù)的資金雄厚的公司所掌控,畢竟這些公司擁有AI研究所需的財政和技術資源。

點這里關注我記得標星~

關鍵詞: 觀點丨DALL-E 2AI研究的未來以及OpenAI的商業(yè)前景

 

網站介紹  |  版權說明  |  聯(lián)系我們  |  網站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權所有 郵箱聯(lián)系:920 891 263@qq.com