【天天新要聞】大衛(wèi)·霍爾茲說AI圖像生成技術是水,會成為人類文明發(fā)展的驅(qū)動力

發(fā)布時間:2022-08-04 17:37:02  |  來源:騰訊網(wǎng)  

劃重點


(資料圖)

1世界上目前有幾十種頂級的圖像生成AI,它們的開發(fā)成本很高,而且需要大量數(shù)據(jù)進行訓練;2名為Midjourney的小公司開發(fā)了同名AI圖像生成器,希望在未來十年時間里對AI圖像生成技術進行深度探索;3Midjourney將AI圖像生成技術視為“想象力的引擎”,通過對語言的理解來創(chuàng)造圖像;4Midjourney創(chuàng)始人認為,AI圖像生成技術更像是水,盡管有時也存在危險,但依然是人類文明發(fā)展的驅(qū)動力。

騰訊科技訊 8月4日消息,人工智能(AI)生成的藝術品正悄然開始重塑文化。在過去幾年里,機器學習(ML)系統(tǒng)通過文本提示生成圖像的能力在質(zhì)量、準確性和表達方面都有了顯著的提高?,F(xiàn)在,這些工具正從研究實驗室轉(zhuǎn)移到日常用戶手中。當然,它們在創(chuàng)造出新的視覺表達語言的同時,也可能帶來了新的麻煩。

目前,世界上只有幾十種頂級的圖像生成AI。它們開發(fā)起來很棘手,成本也很高,需要訪問數(shù)以百萬計的圖像來訓練系統(tǒng)(在圖片中尋找模式并復制它們),還需要進行大量的計算(其成本各不相同,最多可能需要消耗數(shù)百萬美元)。

現(xiàn)在,當這些系統(tǒng)生成的圖像出現(xiàn)在雜志封面上或被用來制造表情包時,它們大多被視為新奇事物。但藝術家和設計師正在將這類軟件整合到他們的工作流程中,在很短的時間內(nèi),AI生成和AI增強的藝術將變得無處不在。關于版權的問題(誰擁有圖像誰創(chuàng)造了它)以及潛在危險(如有偏見的輸出或AI產(chǎn)生的錯誤信息)必須迅速處理。

不過,隨著這項技術逐漸成為主流,名為Midjourney的10人研究實驗室將能夠在某種程度上為自己邀功。這家實驗室通過Discord聊天服務器開發(fā)了同名的AI圖像生成器。雖然很多人可能不太熟悉這個名字,但你可能已經(jīng)在你的社交媒體上看到了Midjourney系統(tǒng)的輸出。你只需加入Midjourney的Discord,輸入某個提示,系統(tǒng)就會為你生成圖片。

Midjourney創(chuàng)始人大衛(wèi)·霍爾茲(David Holz)在接受采訪時表示:“很多人問我們,為什么不開發(fā)能夠生成圖片的iOS應用程序?但人們想要共同創(chuàng)造內(nèi)容,如果你在iOS平臺上這么做,你就必須創(chuàng)造自己的社交網(wǎng)絡。這很困難,所以如果你想要自己的社交體驗,Discord真的很棒?!?/p>

注冊一個免費帳戶,你可以獲得25積分,所有圖片都是在公共聊天室生成的。之后,你將不得不支付每月10美元或30美元費用,這取決于你想制作的圖像數(shù)量以及它們是否屬于你的隱私。不過,本周Midjourney擴大了對其模型的訪問,允許任何人用自己的AI圖像生成器創(chuàng)建自己的Discord服務器。正如霍爾茲所說“我們正在從一個Midjourney宇宙走向Midjourney多元宇宙?!彼J為結果將是令人難以置信的:AI增強創(chuàng)造力的迸發(fā)仍只是冰山一角。

霍爾茲日前接受專訪,談論了自己對Midjourney的雄心,比如他為什么要創(chuàng)建“想象力的引擎”,以及為什么他認為AI更像是水而不是老虎。

以下為專訪全文:

問:你最好能首先介紹下你自己和Midjourney的情況。你的背景是什么?你是怎么卷進來的?Midjourney是什么,一家公司還是一個社區(qū)?你怎么形容它?

霍爾茲:我叫霍爾茲,我自認為是個連續(xù)創(chuàng)業(yè)者。我先簡單介紹下自己:我高中時從事過設計工作,大學學的是數(shù)學物理。我在美國宇航局(NASA)和馬克斯·普朗克實驗室工作時,曾攻讀流體力學博士學位。我一度感到很迷茫,把所有的事情都放在一邊。于是我搬到了舊金山,在2011年左右創(chuàng)辦了名為Leap Motion的科技公司。我們出售可以在手上做動作捕捉的硬件設備,并創(chuàng)造了很多手勢界面空間。

我創(chuàng)立了Leap Motion,并運營了12年,但最終,我開始尋找不同的環(huán)境,而不是一家有風投支持的大公司,于是我選擇離開并創(chuàng)辦了Midjourney?,F(xiàn)在,我們公司的規(guī)模還很小,大概只有10個人,沒有投資人,也沒有經(jīng)濟上的動力。我們沒有出售東西或成為一家上市公司的壓力。這只是為了在接下來的10年里有個地方,能讓我們進行些很酷的項目。

我們在做很多不同的項目,這將是個廣泛多樣的研究實驗室。但也有些主題,比如反思、想象和協(xié)調(diào)等方面的東西。我們開始以圖像創(chuàng)作而聞名。我們不認為這真的是藝術或深度贗品,但是我們該如何擴展人類的想象力?這意味著什么?當計算機比99%的人類更擅長視覺想象時,這意味著什么?這并非意味著我們將停止想象。汽車比人類的速度更快,但這并不意味著我們停止步行。當我們長途運輸大量物品時,我們需要引擎,無論是飛機、船只還是汽車都是如此。我們把這項技術看作是“想象力的引擎”,所以這是一件非常積極和有意義的事情。

問:許多實驗室和公司正在研究將文本轉(zhuǎn)化為圖像的類似技術。谷歌有Imagen, OpenAI有DALL-E,還有些像Craiyon這樣的小項目。這項技術從何而來,你認為它的未來走向如何,Midjourney的愿景與這個領域的其他人有何不同?

霍爾茲:AI已經(jīng)有了兩大突破,從而產(chǎn)生了圖像生成工具。一個是理解語言,另一個是創(chuàng)造圖像的能力。當你把這些東西結合在一起,你就可以通過對語言的理解來創(chuàng)造圖像。我們看到了這些技術的出現(xiàn),我們也看到了這些技術的發(fā)展趨勢,他們在制作圖像方面會比人類做得更好,而且速度會非???。在接下來的一兩年里,你將能夠?qū)崟r制作內(nèi)容:每秒30幀,高分辨率。雖然很貴,但還是有可能的。然后,在10年內(nèi),你將能夠購買帶有巨大AI處理器的Xbox,所有的游戲都來自夢想。

從原始技術的角度來看,這些都是事實,沒有辦法回避。但從人類的角度來看,這到底意味著什么“所有的游戲都來自夢想,一切都是可塑的,我們將擁有AR頭盔”——這到底是什么意思?所以其中的人文因素是深不可測的。而真正讓我們可以使用的軟件,完全還沒有出現(xiàn),我認為這才是我們的重點。

去年9月,我們開始測試原始技術,我們很快就發(fā)現(xiàn)了真正不同的東西。我們很快發(fā)現(xiàn),大多數(shù)人都不知道自己想要什么。當你問道“這是一臺機器,你可以用它想象任何東西,你想要什么”他們會回答說“狗?!蹦銜f真的嗎”他們選“粉紅狗”。所以你給他們一張狗的照片,他們說“好的”,然后去做別的事情。

然而,如果你把他們放在某個群體里,他們會叫它“狗”,其他人則會叫“太空狗”或“阿茲特克太空狗”,然后突然之間,人們理解了各種可能性,你創(chuàng)造了這種增強的想象力:一個人們可以學習和測試這種新能力的環(huán)境。我們發(fā)現(xiàn)人們真的很喜歡一起想象,所以我們便創(chuàng)造了Midjourney的社交功能。我們有個巨大的Discord社區(qū),它是最大的Discord社區(qū)之一,大約有100萬人在共享空間里共同想象東西。

問:你認為這個人類集體和機器集體是平行的嗎?作為對這些AI系統(tǒng)的一種平衡?

霍爾茲:其實并沒有真正的機器集體。每次你讓AI畫一張圖,它真的不記得或不知道它曾經(jīng)畫過的任何東西。它沒有意志,沒有目標,沒有意圖,沒有講故事的能力。所有的自我、意志和故事,都由我們控制。就像引擎一樣,它不能自己決定去哪里,但人卻可以。這有點兒像人類的蜂群思維,擁有超能力的科技。

在這個社區(qū)里,有100萬人在制作圖片,他們都在互相模仿。在默認情況下,每個人都可以看到其他人的圖片。你必須支付額外的費用來退出社區(qū)。通常,如果你這樣做了,這意味著你是某種類型的商業(yè)用戶。所以每個人都在互相影響,從而出現(xiàn)了所有這些新的美學。這幾乎就像審美加速主義,而不是AI美學。它們是新的、有趣的、人類美學,我認為它們將會傳播到世界各地。

問:這種開放性也有助于確保安全嗎?因為有很多關于AI圖像生成器被用于生成潛在有害東西的討論,比如血腥暴力圖像和錯誤信息。你如何阻止這種情況發(fā)生?

霍爾茲:是啊,這太神奇了。當你把某個人的名字印在他拍的所有照片上時,他們在使用照片的方式上就會嚴格得多。這很有幫助。但不幸的是,我們有時還是會遇到些問題。舉例來說,有人通過在社交媒體上引起憤怒來謀生,有人為隱私付費,然后花1個月的時間來創(chuàng)造最令人震驚的圖像,然后試圖在推特上發(fā)布它。然后我們必須堅定地說:這不是我們的目的,這不是我們想要的社區(qū)類型。

每當我們看到這類圖片時,我們會立刻采取行動,必要時我們會進行封禁。我們還收集了許多不當詞匯,并且禁止類似的東西。

問:那么真實的面孔呢?因為這是制造錯誤信息的另一個向量。這個模型能生成真實的臉嗎?

霍爾茲:它會產(chǎn)生名人面孔之類的東西。我們有默認的風格和外觀,它充滿了藝術性,而且非常漂亮,很難被撼動,這意味著你現(xiàn)在不能真正強迫它做深度偽造。也許如果你花100個小時嘗試,可以找到些正確的詞語組合,使它看起來非常真實,但你必須非常努力地使它看起來像照片。就我個人而言,我不認為這個世界需要更多的深度贗品,但它確實需要更多美麗的東西,所以我們專注于讓一切都變得美麗。

問:你從哪里得到模型的訓練數(shù)據(jù)?

霍爾茲:我們的訓練數(shù)據(jù)幾乎與其他公司一樣,都來自互聯(lián)網(wǎng)。幾乎每個大型AI模型都能獲取它能獲取的所有數(shù)據(jù),包括文本和圖像。從科學的角度來說,我們處在這個領域的早期階段,每個人都能獲得差不多的數(shù)據(jù),它們被放在一個巨大的文件中,然后啟動它來訓練一些巨大的東西,沒有人真正知道這堆數(shù)據(jù)中哪些是真正重要的。

例如,我們最近的更新看起來更好,你可能會認為我們是通過在訓練數(shù)據(jù)中加入許多繪畫來實現(xiàn)這一點。但是我們沒有,我們只是根據(jù)人們(使用模型)的喜好來使用用戶數(shù)據(jù)。沒有人為藝術投入其中。但從科學角度來說,我們還處于非常非常早期的階段。整個工作室可能只訓練過24個這樣的模型。所以這依然是實驗科學。

問:訓練你的模型花了多少錢?

霍爾茲:我想說的是,在這個領域的訓練模型時,我不能透露具體成本,但我可以說些大致的東西?,F(xiàn)在,每次訓練圖像模型大概要花5萬美元。你不可能一次就成功,所以你必須嘗試三次或10次或20次。有鑒于此,訓練成本相當高昂。這比大多數(shù)大學的花費都要多,但也不至于貴到需要十億美元或構造超級計算機的程度。

我相信訓練和維護的費用都會降低,但現(xiàn)在運行它的成本實際上相當高。每張照片都要花錢,每張圖片都是在價值2萬美元的服務器上生成的,而我們必須按分鐘租用這些服務器。我認為,從來沒有任何服務能夠讓消費者在15分鐘內(nèi)不加思考地使用數(shù)千萬億次操作。我想說,它比普通消費者接觸過的任何東西都有更強大的計算能力,這可能是它的10倍。這其實有點兒瘋狂。

問:說到訓練數(shù)據(jù),一個有爭議的方面是所有權的問題。美國現(xiàn)行法律規(guī)定,你不能對AI生成的藝術擁有版權,但我們不太清楚人們是否可以對用于訓練數(shù)據(jù)的圖像擁有版權。美工和設計師努力培養(yǎng)自己特定的風格,但如果他們的作品現(xiàn)在可以被AI機器人復制會發(fā)生什么?關于這個問題,你們討論過很多次嗎?

霍爾茲:我們的社區(qū)中確實有很多藝術家,我想說他們普遍對這個工具持積極態(tài)度,他們認為這將使他們提高效率,并大大改善他們的生活。我們不斷地問他們“你還好嗎?你感覺好嗎?”我們也會在辦公時間和1000個人一起錄音,坐4個小時,回答問題。

很多使用這個平臺的著名藝術家,他們都在說同樣的事情,這真的很有趣。他們說:“我覺得Midjourney是一個藝術生,它有自己的風格,當你召喚我的名字來創(chuàng)作一幅圖像時,就像讓一個藝術學生從我的藝術中獲得靈感來創(chuàng)作一些東西??偟膩碚f,作為一名藝術家,我希望人們能從我的作品中獲得靈感?!?/p>

問:但這其中肯定存在著巨大的自我選擇偏見,因為活躍在Midjourney Discord中的藝術家一定會為之興奮。那些說“這是胡扯,我不希望我的藝術被這些巨大的機器吃掉?!蹦銜试S這些人從你的系統(tǒng)中消失嗎?

霍爾茲:我們還沒有相關的流程,但我們愿意接受。到目前為止,我想說這里沒有那么多藝術家。這并不是一個深度的數(shù)據(jù)集。而那些成功的人給我們的答案是,“我們并沒有被這個嚇倒”?,F(xiàn)在,它仍處于新生期,我認為隨機應變和保持活力更有意義。所以我們一直在和人們交談。事實上,我們現(xiàn)在從藝術家那里得到的第一個要求是,他們希望它能更好地竊取他們的風格,這樣他們就能更好地將其作為自己藝術流程的一部分。這讓我很驚訝。

其他的AI圖像生成器可能會有所不同,因為它們試圖讓某些東西看起來像完全真實的東西。但我們有更多的默認風格,所以它真的看起來像一個藝術學生受到其他東西的啟發(fā)。我們這樣做的原因是,你總是有默認值,如果你說“狗”,我們可以給你一張狗的照片,但那很無聊。從人類的角度來說,你為什么要這樣?轉(zhuǎn)到谷歌圖像搜索,我們試圖讓東西看起來更有藝術感。

問:這是你在對話中提到過幾次的東西,Midjourney的默認藝術風格,我真的很著迷于這個想法,每個AI圖像生成器都是自己文化的縮影,有自己的偏好和表達。你如何描述Midjourney的獨特風格,你是如何有意識地發(fā)展它的?

霍爾茲:這有點兒特別!我們嘗試了很多東西,每次我們嘗試新的東西,我們渲染出一千張圖片。這并不是真正的意圖,它應該看起來很漂亮。它應該對具體的事情和模糊的事情做出反應,我們絕對不希望它看起來只像照片。我們可能會在將來的某個時刻制作一個現(xiàn)實版本,但我們不希望它是默認的。完美的照片現(xiàn)在讓我有點兒不舒服,盡管我可以理解為什么你可能想要更真實的照片。

我認為它的風格會有點兒異想天開、抽象和怪異,它傾向于以你可能不會問的方式融合事物,以令人驚訝和美麗的方式進行。它傾向于使用大量的藍色和橙色,也有自己最喜歡的顏色和面孔。如果你給它非常模糊的指示,它肯定會應用自己最喜歡的因素。所以,我們不知道接下來會發(fā)生什么,但它喜歡畫某個特定的女人的臉,我們不知道它從哪里來,因此只能稱它為“旅程小姐”。還有一個人的臉,有點方形,很有氣勢,他也出現(xiàn)過,但他還沒有名字。但它就像有自己面孔和顏色偏好的藝術家。

問:說到這些默認值,圖像生成領域的一個大挑戰(zhàn)是處理偏見。有研究表明,如果你讓某個AI圖像模型生成CEO圖像,可能會發(fā)現(xiàn)其總是白人男性形象;當你讓它輸出護士時,則以女性為主,而且通常是有色人種。你是如何應對這個挑戰(zhàn)的?這是Midjourney所面臨的大問題,還是那些想要從這些系統(tǒng)中盈利的公司所關心的問題?

霍爾茲:“旅程小姐”絕對是個問題,而不是一個功能,我們現(xiàn)在正在研究些東西,將嘗試打破這些面孔,以便帶來更多的變化。但這也有缺點。比如,我們有個版本,它完全摧毀了“旅程小姐”,但如果你真的想要阿諾德·施瓦辛格(Arnold Schwarzenegger)扮演丹尼·德維托(Danny DeVito),那么它也會完全摧毀這個要求。棘手的事情是在不破壞所有表達風格的情況下讓它發(fā)揮作用。因為有個增加多樣性的開關很容易,但很難只在它應該打開的時候才打開。我能說的是,用你想要的任何多樣性來制作一張圖片從來沒有這么容易。

問:讓我們稍微回顧一下,你已經(jīng)說了很多,你不認為你在Midjourney所做的工作具有實用性。我的意思是,顯然你已經(jīng)親身參與,但你的動機更抽象,主要是關于人類和AI之間的關系;關于我們?nèi)绾我阅闼f的這種人文主義的方式使用AI。AI領域的一些人傾向于從最宏偉的角度來考慮這項技術;他們將其比作神,比作有知覺的生命。你對此有何感想?

霍爾茲:有一段時間,我一直試圖弄清楚“Midjourney的AI圖像生成器是什么”因為你可以說它就像一個“想象力的引擎”,但還有其他的東西。第一個誘惑是通過藝術的鏡頭來看待它,并且發(fā)問:這像攝影的發(fā)明嗎?因為當照片被發(fā)明出來的時候,繪畫變得更奇怪了,因為任何人都可以拍一張臉,所以我為什么要在現(xiàn)在畫這幅畫?

真是這樣嗎?不,不是那樣的。這絕對是新鮮事物?,F(xiàn)在,這感覺就像引擎被發(fā)明出來。就像,你每分鐘都在制造一堆圖像,你沿著想象的道路翻涌,這感覺很好。但如果你再往前走一步,不是一次拍四張照片,而是拍一千張或一萬張,那就不一樣了。將來有一天,我這樣做了,我在幾分鐘內(nèi)拍了4萬張照片,突然之間,我面前有了這么廣闊的大自然,我花了4個小時才全部看完,在這個過程中,我感覺自己快要淹死了。我覺得自己像個小孩子,看著水池的深處,知道自己不會游泳,卻能感覺到水的深度。突然之間,Midjourney感覺不像引擎,而是像一股洪流。我花了幾周的時間來消化,我想了又想,然后我意識到:你知道嗎?這實際上就像水。

現(xiàn)在,人們完全誤解了AI到底是什么。他們把它看成兇猛而危險的老虎,它可能會吃掉我們。當然,水也有危險,你可能會被淹死,但奔流的河水帶來的危險和老虎帶來的危險完全不同。你可以在水里游泳,可以造船,可以在水里筑壩發(fā)電。水是危險的,但它也是文明的驅(qū)動力,懂得如何與水共處和利用水的力量讓人類過得更好。這是一個機會,它沒有意志,沒有惡意,是的,你可能淹死在里面,但這并不意味著我們應該禁水。當你發(fā)現(xiàn)了新的水源時,這真的是一件好事。

問:Midjourney是新的水源嗎?

霍爾茲:當然!我認為作為一個物種,我們已經(jīng)發(fā)現(xiàn)了一種新的水源,而Midjourney試圖弄清楚的是:我們?nèi)绾卫盟鼮槿藗兎??我們怎么教人們游泳?我們怎么造船?我們怎么把它堵起來?我們?nèi)绾螐暮ε履缢娜俗兂晌磥頉_浪的孩子?我們是在制造沖浪板,而不是制造水。我認為這里面有些深刻的東西值得探索。 (金鹿)

關鍵詞: 大衛(wèi)霍爾茲說AI圖像生成技術是水 會成為人類文明發(fā)展的

 

網(wǎng)站介紹  |  版權說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權所有 郵箱聯(lián)系:920 891 263@qq.com