這是一張AI系統(tǒng)DALL-E 2根據(jù)文字描述“戴著貝雷帽和穿黑色高領(lǐng)毛衣的柴犬”(Shiba Inu dog wearing a beret and black turtleneck)生成的圖像。
時隔一年,DALL-E的升級版來了!
當?shù)貢r間4月6日,人工智能研究機構(gòu)OpenAI發(fā)布DALL-E 2(文本到圖像生成程序)。DALL-E 2具有更高分辨率和更低延遲,精確度改善了71.7%,寫實度改善了88.8%,解析度更是原本的4倍,還可結(jié)合概念、屬性及風格打造更生動的圖像,如以莫奈(Claude Monet)的風格畫出草原上的狐貍。
同時新增兩大功能:更細顆粒度的文字局部修改圖像,以及生成原圖的多重風格變體。
前者比如這樣!
在原圖的2區(qū)域增加一個火烈鳥游泳圈
上下分別為在原圖的1區(qū)域和2區(qū)域增加一個小狗
DALL-E 2在更細的層面上應(yīng)用DALL-E的文本到圖像的能力。用戶可以從現(xiàn)有的圖片開始,選擇一個區(qū)域,并告訴模型如何來修改它。模型可以填充(或刪除)物體,同時考慮到陰影方向、反射與質(zhì)地等細節(jié)。
后者比如這樣!
以同一張圖像為基準,建立不同風格或編排的版本。
生成的圖片是1024 x 1024像素,比原始模型提供的256 x 256像素有了飛躍
DALL-E的名稱來自于藝術(shù)家薩爾瓦多·達利(Salvador Dalí)和《機器人總動員》的主角WALL-E,第一版于2021年1月首次亮相。DALL-E奠基在具備1750億個參數(shù)的GPT-3模型上,但它僅使用120億個參數(shù),利用一個文字與圖像配對的資料集,以文字敘述來產(chǎn)生圖像。
薩爾瓦多·達利(Salvador Dalí)
《機器人總動員》的主角 機器人WALL-E(瓦力)
OpenAI研究科學家Prafulla Dhariwal表示:“DALL-E 1只是從語言中采用了GPT-3方法,并將其應(yīng)用于生成圖像:我們將圖像壓縮成一系列單詞,然后學會預(yù)測接下來的內(nèi)容”。
但是單詞匹配并不一定能捕捉到人類認可的重點,而且預(yù)測過程限制了圖像的真實性。于是用CLIP(OpenAI去年發(fā)布的計算機視覺系統(tǒng))來觀察圖像,并以人類的方式總結(jié)它們的內(nèi)容。
DALL-E系統(tǒng)根據(jù)文字“牛油果型的扶手椅”自動創(chuàng)作的部分圖像
CLIP是原版DALL·E功能實現(xiàn)的基礎(chǔ),DALL-E 2則結(jié)合了CLIP和擴散模型兩種技術(shù)的優(yōu)點。DALL·E圖像生成的“擴散”(diffusion)過程可以理解為從“一堆點”出發(fā),用越來越多的細節(jié)把圖像填充完整。擴散模型的特點在于,在犧牲多樣性的前提下,能大大提升生成圖像的逼真度。
DALL-E 2根據(jù)“Teddy bears mixing sparkling chemicals as mad scientists, steampunk.”描述生成的圖像
為避免生成的圖片被濫用,目前OpenAI已經(jīng)實施了一些內(nèi)置的保護措施。
該模型在已剔除不良數(shù)據(jù)的數(shù)據(jù)集上進行訓練,將由經(jīng)過OpenAI審查的合作伙伴進行測試,用戶被禁止上傳或生成“非G級”和“可能造成傷害”的圖像,以及任何涉及仇恨符號、裸體、猥褻手勢,或“與正在發(fā)生的重大地緣政治事件有關(guān)的重大陰謀或事件”的圖像。
該模型也無法根據(jù)姓名生成任何可識別的人臉,即使要求的是“蒙娜麗莎”之類的內(nèi)容。同時,DALL·E 2 在生成的圖片上都標有水印,以表明該作品是 AI 生成的。理想情況下這些措施可以限制其產(chǎn)生不良內(nèi)容的能力。
與之前一樣,該工具并未直接向公眾發(fā)布。但研究人員可以提交申請預(yù)覽該系統(tǒng),OpenAI希望以后將DALL·E 2納入該組織的API工具集中,使其可用于第三方應(yīng)用程序。
Dhariwal說道,“我們希望分階段進行這個過程,以從獲得的反饋中不斷評估如何安全地發(fā)布這項技術(shù)。”
關(guān)鍵詞: 再生達利+機器人瓦力 文字生成圖片的AI升級版來了