文丨劉燕秋
(資料圖片)
來源丨投中網(wǎng)
我輸入的關(guān)鍵詞是:冬日海面,鯨魚,甜甜圈,c4d渲染,裝飾管線。
十分鐘后,群里的機(jī)器人給我發(fā)過來一張色彩瑰麗且頗具想象力的圖片:鯨魚從冬日微微冒煙的海面浮出,棕褐色的甜甜圈似海里巨大的巖石。
作為一個帶有獵奇心理的試用者,我很滿意。
老實說,我發(fā)出的指令只是一些我喜歡的東西構(gòu)成的詞匯,我并沒有想過這些組合在一起會是什么樣子,但僅靠文字描述,AI就幫我具體地描繪了一個理想世界。
這是最近火爆的AIGC概念的一次生動應(yīng)用。
所謂AIGC(AI-generated content),按照中金7月發(fā)布的研究,指的是一種通過AI技術(shù)來自動或輔助生成內(nèi)容的生產(chǎn)方式。通過輸入指令,人類讓AI去完成冗雜的代碼、繪圖、建模等任務(wù),從而生成內(nèi)容。
紅杉美國的兩位合伙人最近也在一篇題為《Generative AI: A Creative New World》的文章里寫道:機(jī)器開始嘗試創(chuàng)造有意義和美麗的東西,這個新類別被稱為“生成式AI(Generative AI)”,這意味著機(jī)器正在生成新的東西,而不是分析已經(jīng)存在的東西。
“人人都能成為創(chuàng)作者”,過去我們一再使用類似的話語,表達(dá)技術(shù)演進(jìn)給內(nèi)容生產(chǎn)帶來的變革。如果說短視頻一類工具的出現(xiàn)降低了表達(dá)的門檻,那么AI工具的應(yīng)用無疑讓這句話更為貼近現(xiàn)實,其商業(yè)前景同樣廣闊。中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟發(fā)布的《中國AI數(shù)字商業(yè)展望2021-2025》報告預(yù)測,到2025年,中國AI數(shù)字商業(yè)核心支柱產(chǎn)業(yè)鏈規(guī)模將達(dá)到1853億元,其中AI數(shù)字商業(yè)內(nèi)容產(chǎn)業(yè)規(guī)模將達(dá)到495億元。
海外,人工智能藝術(shù)家和藝術(shù)品迅速涌現(xiàn)。谷歌、微軟、Meta等科技公司扎堆AI繪畫,Disco Diffusion、DALL-E 2、Stable Diffusion、Midjourney、Make-A-Scene、NUWA等平臺正在重新定義設(shè)計的想象力。
國內(nèi)也已經(jīng)暗流洶涌。在今年7月的百度世界大會上,AI用時1秒就復(fù)原了《富春山居圖》殘卷,應(yīng)用的正是百度開發(fā)的飛槳和文心大模型技術(shù)。以TIAMAT為首的一些脫胎于中文環(huán)境的生成式AI生成內(nèi)容平臺也轉(zhuǎn)入爆發(fā)式增長。
每一波小趨勢的出現(xiàn)無一例外總能牽動投資人的情緒?!敖衲昶甙嗽路蓍_始,這個賽道慢慢火起來了,從9月份到現(xiàn)在,鋪天蓋地到處都是AIGC?!庇袕臉I(yè)者向我透露。
海外的AIGC賽道已經(jīng)跑出了獨角獸。10月18日,Stable Diffusion背后的Stability AI宣布獲得1.01億美元來自Coatue和光速的投資,投后估值攀升至10億美元。
我了解到的消息是:一個還在內(nèi)測階段的AI生成內(nèi)容平臺已經(jīng)被十余家美元基金圍獵;不少VC都在催FA給他們推類似的項目;一些原來業(yè)務(wù)更To B的公司也推出了面向C端的產(chǎn)品,比如,9月底,AI模特圖片解決商ZMO推出用文字驅(qū)動Photoshop的新產(chǎn)品,這家公司已經(jīng)拿到高瓴、金沙江和GGV的錢。
“AI在細(xì)分領(lǐng)域的應(yīng)用一直是DCM關(guān)注的主題,在DCM的Portfolio里不僅有弘璣Cyclone這種RPA+AI公司,還有專注在AI藥物研發(fā)的星藥科技,AI工業(yè)視覺的阿丘科技等,快手中也大量應(yīng)用了AI推薦機(jī)制。大概在去年年底,我們關(guān)注到國外的技術(shù)進(jìn)展和代表性的內(nèi)容生產(chǎn)公司,開始密切關(guān)注用戶端的內(nèi)容生成工具?!盌CM投資人告訴我。上周,生成式AI平臺TIAMAT宣布完成數(shù)百萬美元天使輪融資,DCM也是本輪的投資方。
那么,還是要回到一個關(guān)鍵問題,AI生成繪畫為什么在2022年火了?
一個隨之而來的老生常談的問題是,文字工作者之后,這回該輪到插畫師失業(yè)了嗎?
01
簡單來說,這波AI繪畫產(chǎn)品的流行背后是關(guān)鍵技術(shù)的突破,轉(zhuǎn)折發(fā)生在去年年底到今年年初。
TIAMAT創(chuàng)始人青柑告訴我,團(tuán)隊從去年下半年開始一直在做CV和NLP相關(guān)的東西。過去業(yè)內(nèi)已經(jīng)開發(fā)了很多生成圖像的技術(shù)模型,但當(dāng)時在全球技術(shù)社區(qū)里,大家的統(tǒng)一認(rèn)知是,接下來會是Diffusion模型的未來。
這個模型有何特別之處?
過去在AI領(lǐng)域,NLP涉及到的是自然語言處理,可能應(yīng)用在自動續(xù)寫小說、劇本等領(lǐng)域,而圖形領(lǐng)域主要研究的是CV、CG、視覺識別或者自動駕駛。但圖形是一種模態(tài),文字是另一種模態(tài),兩個模態(tài)之間的互相理解和應(yīng)用是難以跨越的技術(shù)難題。
此前應(yīng)用較多的是由 Open AI提出的CLIP模型,這個模型使用已經(jīng)標(biāo)注好的"文字-圖像"訓(xùn)練數(shù)據(jù), 一方面對文字進(jìn)行模型訓(xùn)練, 同時對圖像進(jìn)行另一個模型的訓(xùn)練, 不斷調(diào)整兩個模型內(nèi)部參數(shù), 使得文字特征值和圖像特征值能讓對應(yīng)的"文字-圖像"確認(rèn)匹配。
但這個在2021年上半年提出的模型一直沒有很好的落地應(yīng)用場景,直到2021年下半年結(jié)合了Diffusion模型。事實上,學(xué)界早就提出了Diffusion模型,只是過去沒有人把它應(yīng)用在文本到圖像之間的網(wǎng)絡(luò)。
現(xiàn)在,這道技術(shù)上的門檻被邁了過去。CLIP + Diffusion 模型不僅可以支持從文字直接生成圖像,而且圖像的水準(zhǔn)已經(jīng)成熟到可以在商業(yè)場景落地,于是,正如我們看到的,大量AI繪圖應(yīng)用扎堆出現(xiàn)。
這是Diffusion模型主導(dǎo)的時代,它構(gòu)成市面上所有AI生成圖像的底層技術(shù),但每一個公司可以在上面開發(fā)出自己的框架和模型,因此生成的圖像質(zhì)量也各不相同。這就好比Diffusion是若干磚頭,大家都在拿它搭房子,但搭出的房子五花八門。今年初率先走紅的AI繪畫平臺 Disco Diffusion是第一個基于CLIP + Diffusion 模型的產(chǎn)品,開源的Stable Diffusion則是很多人眼中目前市面最強(qiáng)產(chǎn)品。
“更好的模型,更多的數(shù)據(jù),更多的算力”,在《Generative AI: A Creative New World》中,紅杉的兩位合伙人對生成式AI流行的原因進(jìn)行了更全面地概括。
他們總結(jié)了這一領(lǐng)域經(jīng)歷的四波浪潮:
第一波浪潮:小模型(Small Models)占主導(dǎo)地位(2015年前)
第二波浪潮:規(guī)模競賽(2015年-至今)
第三波浪潮:更好、更快和更便宜(2022+)
算力變得更便宜,新技術(shù)如擴(kuò)散模型(Diffusion Models),降低了訓(xùn)練和運行所需的成本。
第四波浪潮:殺手級應(yīng)用出現(xiàn)(現(xiàn)在)
“正如移動設(shè)備通過GPS、攝像頭和網(wǎng)絡(luò)連接等新功能釋放了新類型的應(yīng)用程序一樣,我們預(yù)計這些大型模型將激發(fā)生成式AI應(yīng)用程序的新浪潮。就像十年前移動互聯(lián)網(wǎng)被一些殺手級應(yīng)用打開了市場一樣,我們預(yù)計生成式AI的殺手級應(yīng)用程序也會出現(xiàn),比賽開始了?!彼麄冾A(yù)判。
02
去年年底,TIAMAT開始在各社交平臺發(fā)布圖片,同時向粉絲征集名字。TIAMAT就是投票出來的結(jié)果。這個名字的含義是,古巴比倫神話中的創(chuàng)世神,“象征用自然語言驅(qū)動生成內(nèi)容,并以此創(chuàng)造一個世界”TIAMAT創(chuàng)始人青柑說到。
競爭激烈,已經(jīng)有人將AI繪圖的涌現(xiàn)比作“眾神之戰(zhàn)”,那么,誰是這個行業(yè)里真正的“神”?
今年8月,國外博主Eliso比較了DALL-E 2 、Stable Diffusion和Midjourney 三個AI圖像生成程序。他發(fā)現(xiàn),DALL-E 2 生成的圖像通常能最大限度地遵循提示;Stable Diffusion對某些提示效果更好,而對另一些提示效果更差,但可以通過修改更精確的描述以使其正常工作;Midjourney 風(fēng)格非常獨特,但有時與輸入的關(guān)鍵詞不符。他的結(jié)論是:如果你只想使用這些 AI 中的任何一個,最好的選擇是Midjourney 。如果不想付費使用,最好的選擇是Stable Diffusion,只需要申請就能免費使用。
這當(dāng)然是一個主觀的結(jié)論。從用戶的角度,UI、易用性、使用成本以及對關(guān)鍵詞的理解程度等都是可比較的維度,逐一審視,當(dāng)下的軟件在不同應(yīng)用場景下都各有其優(yōu)缺點。
從專業(yè)的層面,決定一個AI圖像生成產(chǎn)品形態(tài)的有三個維度。
其一是模型,這需要應(yīng)用大量數(shù)據(jù)訓(xùn)練,這是一個花費高昂的過程。
國外,谷歌、Meta、微軟等大廠都是AI內(nèi)容生成的積極探索者,國內(nèi)的互聯(lián)網(wǎng)公司中,百度已經(jīng)上線了中文版的AI繪畫工具“文心·一格”,擁有海量數(shù)據(jù)的大廠在這一賽道會有先發(fā)優(yōu)勢嗎?
在青柑看來,國內(nèi)大廠在模型上有一些進(jìn)展,但在語義理解方面未必有海外成熟。這跟數(shù)據(jù)息息相關(guān),用于訓(xùn)練的模型數(shù)據(jù)必須非?!案蓛簟?,必須是“有效的、匹配的、可增強(qiáng)的數(shù)據(jù)”。具體來說,光有圖片不行,一張圖片旁邊必須配一句對圖像精準(zhǔn)的描述才算合格。從這個層面說,大廠如果沒有提前收集、整理數(shù)據(jù),那么跟創(chuàng)業(yè)公司幾乎是在同一起跑線上。“可能會有一些數(shù)據(jù)積累的優(yōu)勢,但也需要花費時間和成本校對那些數(shù)據(jù)。”
每個公司都有自己數(shù)據(jù)接入的方式,但從結(jié)果上看就是,誰能更快速地獲得更多有效數(shù)據(jù),誰的壁壘就會越來越高。
其二是工具,這涉及到如何使用模型,比如在交互方式上,是用文本去調(diào)動圖像生成還是圖像加文本調(diào)動圖像生成?
其三是社區(qū),海外的平臺一般都會配套創(chuàng)作者社區(qū),因為誰在使用工具是一件很重要的事情。搭建在Discord上的Midjourney擁有超過百萬人的社區(qū),Midjourney創(chuàng)始人曾在采訪中這樣描述社區(qū)的重要性:“社區(qū)內(nèi)有數(shù)百萬人在制作圖像,每個人都在互相模仿,產(chǎn)生新的美學(xué)。它們不是AI美學(xué),而是新的有趣的人類美學(xué)。”
社區(qū)不僅是激發(fā)創(chuàng)作靈感的地方,在很大程度上也影響著AI生成圖片的風(fēng)格?!拔覀兛梢栽谏鐓^(qū)里觀察到,用戶每天在發(fā)什么樣的圖,生成什么樣的圖,將圖片用于什么樣的場景中,再不斷根據(jù)反饋來調(diào)整模型?!鼻喔谈嬖V我。
和海外產(chǎn)品相比,TIAMAT目前的技術(shù)壁壘體現(xiàn)在對中文語義的理解上。生成圖像的本質(zhì)還是創(chuàng)造內(nèi)容,內(nèi)容就會有其生長和使用的文化土壤。如果你想用AI繪圖復(fù)現(xiàn)心里的《桃花源記》,不管在積累的數(shù)據(jù)還是自然語言理解方面,海外的平臺都并不能很好地達(dá)成這些目的。
比起英文,中文在自然語言理解的難度會陡然提高,如何消除歧義,更好地理解和表達(dá)中文語境,同時破解更復(fù)雜含蓄的“意境”,是TIAMAT團(tuán)隊最近想突破的難題。
03
像所有新技術(shù)一樣,在令人驚嘆的同時,AI繪畫從誕生之初就伴隨爭議。其中一個爭議,是版權(quán)及倫理問題。
為規(guī)避版權(quán)爭議,TIAMAT和Midjourney都謹(jǐn)慎地在素材庫中使用無版權(quán)的圖片。但有熟悉這些工具的博主稱,目前市面上所有AI工具生成的圖片,即使付費,都只是“理論上可商用”,仍存在一定風(fēng)險,風(fēng)險主要來源于描述詞會引來畫風(fēng)抄襲的爭議。設(shè)計師努力創(chuàng)造一種特定的風(fēng)格,但如果他們的作品被AI當(dāng)做素材,會發(fā)生什么?
這種擔(dān)憂并非多慮。《麻省理工技術(shù)評論》9月發(fā)布了一篇文章:數(shù)字藝術(shù)家 Greg Rutkowski 因為看到他的繪畫風(fēng)格被AI圖像生成平臺復(fù)制而不安,指向的正是剛發(fā)布不久的Stable Diffusion——生成式AI從網(wǎng)上抓取數(shù)據(jù)來訓(xùn)練自己的模型,有時會未經(jīng)在世藝術(shù)家允許就收集他們的藝術(shù)作品。類似的聲音已經(jīng)在國內(nèi)出現(xiàn),畫師九度樂最近在微博上抨擊了這一現(xiàn)象,“難道以后發(fā)圖要打上滿屏的水印了嗎……誰也不想自己辛苦半個月磨出來的圖被AI拿去當(dāng)素材庫了”。
但從法律的層面,認(rèn)定構(gòu)成侵權(quán)行為并非易事。有熟悉相關(guān)法律的人士告訴我,所謂的“畫風(fēng)”更偏重主觀感受上的歸類,認(rèn)定侵權(quán)先要明確權(quán)利,同時主張被侵權(quán)一方要承擔(dān)主要的舉證責(zé)任,和文字相比,構(gòu)成更復(fù)雜的圖片需要提供更充分翔實的證據(jù)支持?!癆I的學(xué)習(xí)模式類似于一個‘運動員的集訓(xùn)’,配比數(shù)以百萬計的‘如果’,才有可能出現(xiàn)期待的‘那么’或者‘結(jié)果’。不是因果論,是結(jié)果論?!?/p>
從倫理上講,如果想將在世藝術(shù)家的作品用作素材,最好的做法是獲取其授權(quán),但因為AI繪畫仍處于發(fā)展早期,這樣的實踐還不太多。
那個更具普世性的爭議是,AI取代人工會不會構(gòu)成對從業(yè)者的威脅?
8月,一幅由Midjourney自動生成的畫作《太空歌劇院》在美國的一個美術(shù)競賽中獲得了一等獎,但因該作品由AI繪圖工具完成,引發(fā)不少藝術(shù)家的指責(zé)。我無意圍繞相關(guān)爭議再展開討論。AI生成圖像之于構(gòu)圖創(chuàng)造力就像攝影之于繪畫,把攝影作品和油畫作品放在一起比較,這本身就不夠合理。
但我們關(guān)心AI繪畫的未來走向以及技術(shù)嬗變對人類帶來的長期影響。這并非杞人憂天,已經(jīng)有給AI打雜的精修插畫師工種誕生了。就我個人的體驗而言,AI繪畫的質(zhì)量、甚至其創(chuàng)造力和想象力都不一定比人類畫師差,只是從工具的角度,現(xiàn)階段AI對人類需求的理解還不夠準(zhǔn)確,生成的圖像并不能完全匹配提示詞。
這當(dāng)然與技術(shù)的發(fā)展階段有關(guān)。李彥宏曾判斷AIGC將走過三個發(fā)展階段:
第一個階段是“助手階段”,AIGC用來輔助人類進(jìn)行內(nèi)容生產(chǎn);
第二個階段是“協(xié)作階段”,AIGC以虛實并存的虛擬人形態(tài)出現(xiàn),形成人機(jī)共生的局面;
第三個階段是“原創(chuàng)階段”,AIGC將獨立完成內(nèi)容創(chuàng)作。
“我的出發(fā)點肯定不是做一個東西把自己的興趣愛好替代掉,對吧?”青柑畢業(yè)于中科院上??萍即髮W(xué),學(xué)的是計算機(jī)專業(yè),但她在中學(xué)時代是個美術(shù)生,差點就去參加藝考。
她更喜歡跟我談?wù)摗叭藱C(jī)比”的說法,會思考未來在不同的行業(yè)里,人和機(jī)器的比例會是什么樣。以Excel表格為例,過去是人來繪制表格并計算,現(xiàn)在人只要輸入數(shù)據(jù),其他的工作Excel都能代勞。在她眼中,內(nèi)容生產(chǎn)行業(yè)正在發(fā)生類似的事情,只是人機(jī)比例不同,Excel讓人的比例降得很低,但在內(nèi)容生產(chǎn)領(lǐng)域,人仍然占據(jù)更高的比例。
AI內(nèi)容生成平臺的目的,是將人從機(jī)械勞動中解脫出來,釋放人的創(chuàng)作想象力。目前,TIAMAT排隊內(nèi)測的用戶在2萬左右,C端用戶覆蓋設(shè)計師群體、游戲和影視從業(yè)者以及部分技術(shù)從業(yè)者。在To B端,時下央視網(wǎng)、《時尚芭莎》、《嘉人》發(fā)布的一系列主視覺均出自TIAMAT,TIAMAT也已經(jīng)和知名IP版權(quán)方、頭部游戲廠商等深度合作,提供概念設(shè)計、場景設(shè)計等,也能提供更潮流的營銷方案和廣告圖像,同時也可以接入電商行業(yè)的工作流,幫助其提高效率和質(zhì)量。
另一個關(guān)鍵的問題是,畢加索之所以是畢加索,是因為繪畫理念的革新,AI可以做到這一點嗎?它能輸出真正的藝術(shù)家作品,還是只能生產(chǎn)仿品?
“TIAMAT現(xiàn)在每天生成的圖像大概有十幾萬張,和人類學(xué)習(xí)繪畫的過程類似,我們觀察到,當(dāng)把很多流派融合起來的時候,AI會創(chuàng)造一個新的流派?!边@是青柑給我的答案。大膽預(yù)測,一方面,未來的藝術(shù)史中可能會出現(xiàn)AI流派。另一方面,AI生成的圖像也會反向影響人類的審美,當(dāng)我們越來越多地在生活中看到由AI生成的詭譎繁復(fù)的圖像,人對美的定義也會漸漸變化。
前兩天她還被TIAMAT生成的圖像驚艷到。當(dāng)時她輸入的關(guān)鍵詞是,人工智能預(yù)言的未來,生成的圖像里,一個人站在繁復(fù)的像代碼塊堆疊起的歷史長河里,似在凝望著未來。
04
回到開頭的那張圖,我不會畫畫,但我給AI輸入了指令,最終的作品算是我的創(chuàng)作嗎?
我很心虛。
但青柑認(rèn)為,答案是不容置疑的。“人的主觀性一定是第一步,人先有一個想法,然后映射到真實世界里,AI只不過是中間的映射器?!?/p>
生成式AI經(jīng)由數(shù)據(jù)集模仿人類的想象力,數(shù)億張圖片的容量比個體記憶的容量要大得多。它們是出色的數(shù)據(jù)挖掘者,但至少在現(xiàn)階段,它們?nèi)匀蝗狈σ庾R。
在DCM投資人George眼中,人類擁有自由意志,并樂于借助工具來表達(dá)和詮釋,AI生成內(nèi)容平臺就是人類發(fā)明的一種新的內(nèi)容生產(chǎn)工具?!叭祟愇拿靼l(fā)展的軌跡就是不斷通過技術(shù)的演變,發(fā)明新的工具,然后用新的工具去跟世界連接,人和人之間互相連接,所以我們認(rèn)為,AI生成內(nèi)容是一個結(jié)構(gòu)性的變革,是一種科學(xué)和藝術(shù)、人和機(jī)器的耦合?!?/p>
如果去想象其未來,TIAMAT這樣的平臺有可能發(fā)展成綜合的AI內(nèi)容創(chuàng)作平臺。大家一開始都是通過prompt(在機(jī)器中輸入關(guān)鍵詞)的方式,書寫一種人機(jī)耦合的語言來生產(chǎn)內(nèi)容,但將來可以用的內(nèi)容媒介會越來越多,人們在生產(chǎn)內(nèi)容之后還會存儲并回來搜索,在這個過程中產(chǎn)生更多反饋機(jī)制。
“從百度的搜索機(jī)制,到頭條的推薦機(jī)制,到現(xiàn)在更新方式的prompt,是不是能通過它去引領(lǐng)一個新的內(nèi)容生產(chǎn)創(chuàng)作的范式呢?”George拋出了一個面向未來的問題。
圖片界的“今日頭條”——這是我看到的某AI繪圖平臺寫在BP上的定位。
無論如何,技術(shù)還在不斷迭代。Make-a-scene已經(jīng)支持上傳簡單的草圖來生成圖像;Stable Diffusion 很可能在一年之內(nèi)就能在智能手機(jī)上運行;一些模型已經(jīng)開始著手動態(tài)視頻生成,比如,YouTube 上的創(chuàng)作者DoodleChaos最近使用 Disco Diffusion V5.2 Turbo 制作了一段完整的音樂視頻。在百度世界大會上,李彥宏預(yù)言,未來十年,AIGC將顛覆現(xiàn)有內(nèi)容生產(chǎn)模式,可以實現(xiàn)以“十分之一的成本”,以百倍千倍的生產(chǎn)速度,去生成AI原創(chuàng)內(nèi)容。
也許,“prompt一下”的時代離我們并不遙遠(yuǎn)。
關(guān)鍵詞: AIGC火了 VC正在催FA推案子 人工智能 自然語言處理