作者| 宇多田
出品| 虎嗅科技組
封面來自the Verge
Facebook改名Meta后,“財(cái)務(wù)厄運(yùn)”并未因此終止,但技術(shù)作風(fēng)卻一如既往的大膽。
雖然自2022年2月以來,公司股價(jià)已下跌30% ,市值損失超過2500億美元。但是,這并沒有影響開發(fā)者們的精神世界與工作動(dòng)力。
本周,來自Meta一小撮程序員的瘋狂舉動(dòng),在全球AI開發(fā)者群體中引發(fā)了巨大騷動(dòng)——
Meta AI 實(shí)驗(yàn)室高調(diào)宣布,將開放自己的語言大模型 OPT(Open Pretrained Transformer,預(yù)訓(xùn)練變換模型),毫無保留地貢獻(xiàn)出所有代碼。
不夸張地說,在人工智能圈,這算得上是一個(gè)里程碑事件。
這個(gè)被稱為OPT的大規(guī)模語言模型,自建立以來,各項(xiàng)參數(shù)與能力便精準(zhǔn)對標(biāo)OpenAI 的GPT3,甚至連缺點(diǎn)都是。后者在全球?qū)W術(shù)界建立的赫赫聲望和隨處可見的網(wǎng)絡(luò)小說續(xù)寫作品,想必已不必再過多贅述。
簡而言之,這是一種利用巨量網(wǎng)絡(luò)文本與書籍進(jìn)行訓(xùn)練,可以將單詞和短語串在一起組成精彩文本的深度學(xué)習(xí)算法模型。
它能生成復(fù)雜句子,有時(shí)候甚至讀起來與人類撰寫毫無無異(想粗淺了解GPT,可以看這篇《讓00后瘋狂的超級算法》)。某種程度上,它所具備的神奇人工文本模仿能力,被視為人類通往真正機(jī)器智能道路上的一個(gè)巨大突破口。
GPT3生成的文本
然而,“培育”大模型的代價(jià),是昂貴的人力成本與成千上萬塊顯卡。因此,許多學(xué)者都認(rèn)為,把這種大模型開放出來,幾乎不可能發(fā)生在“游走在壟斷邊緣”的大型科技公司身上。
譬如,OpenAI 的GPT3曾被專家粗略估算過,至少投入了1000萬美元。他們后來為了擺脫入不敷出的現(xiàn)狀,將GPT3作為一項(xiàng)付費(fèi)服務(wù)來推廣——只提供API,但不會(huì)開放模型本身和底層代碼。
然而,Meta表示,會(huì)把不同參數(shù)規(guī)模的訓(xùn)練模型以及“OPT如何建造和訓(xùn)練”的詳細(xì)信息分發(fā)給研究人員。
其中,也包括一份超過100頁的算法訓(xùn)練日志——實(shí)驗(yàn)室記錄下的每一個(gè)錯(cuò)誤與崩潰現(xiàn)象,訓(xùn)練和添加數(shù)據(jù)的過程,以及有效與無效策略。
“考慮到計(jì)算成本,如果沒有大量資金,這些模型很難復(fù)制。對于少數(shù)通過api可調(diào)用的模型(這里暗指GPT3),如果不能獲得完整的模型權(quán)重,就難以進(jìn)行研究?!彼麄冊贠PT的論文摘要里鮮明表達(dá)了態(tài)度,
“因此,我們推出了OPT(這是一個(gè)只有解碼器的預(yù)訓(xùn)練變換模型),參數(shù)范圍從125M到175B,目標(biāo)是全面且負(fù)責(zé)任地分享給感興趣的研究人員。”
“是真的開放?!?/p>
一位“正準(zhǔn)備去看看他們實(shí)現(xiàn)情況”的中國開發(fā)者查閱了MetaAI網(wǎng)站后,告訴虎嗅,這的確是一個(gè)好消息。“從現(xiàn)有數(shù)據(jù)來看,整個(gè)訓(xùn)練代碼都被貼出來了。Meta很了不起?!?/p>
擅用集體力量
這一次開源,毫無意外受到了學(xué)術(shù)界的高度認(rèn)可,甚至有科學(xué)家稱其是一個(gè)偉大的舉動(dòng)。
究其原因,一方面,一項(xiàng)強(qiáng)大技術(shù),如何在一個(gè)封閉的企業(yè)精英團(tuán)隊(duì)中誕生,一直是包括學(xué)界在內(nèi)大眾好奇的焦點(diǎn);
另一方面,“開源”的優(yōu)勢在于利用集體力量來解決問題,因此長期被硅谷的有識之士所倡導(dǎo)——更多人參與進(jìn)來,技術(shù)突破便來得越快,漏洞便填得越快。
盡管大部分人幾乎只記住了GPT3(因?yàn)樗瞧駷橹棺詈玫摹巴ú拧保瑢?shí)際上,除了Meta,谷歌、微軟都曾在2020年都推出過相似的大模型,但由于都是“關(guān)起家門”做私密研究,因此在“透明度”方面飽受詬病。
譬如,2021年的“谷歌人工智能倫理學(xué)科學(xué)家辭退事件”便引發(fā)了長達(dá)一年的“批判海嘯”,而這一切都是因一篇探討“語言大模型暗藏重大隱患”的論文而起。
被谷歌無理辭退的人工智能倫理科學(xué)家Timnit Gebru
沒錯(cuò),GPT3們不僅缺陷多多,而且非常致命。盡管多數(shù)責(zé)任應(yīng)歸咎背后的人類文本。
創(chuàng)業(yè)公司 Latitude 曾在2019年推出過一款基于GPT3開發(fā)的半開放冒險(xiǎn)游戲 AI Dungeon。但沒想到,隨著用戶增多,OpenAI監(jiān)測到,有玩家竟然利用這項(xiàng)高階技術(shù),自發(fā)生成兒童性愛場景。
雖然用戶利用GPT3生成的污言穢語也曾遭遇過廣泛抨擊,但這件事仍然讓大眾嘩然。這也是外界第一次意識到,GPT3這類大模型更為深刻的陰暗面。因此,Latitude增加了審核系統(tǒng),但卻引發(fā)了與用戶體驗(yàn)相關(guān)的一系列麻煩。
AI Dungeon游戲界面
然而,“越是危險(xiǎn),越不能回避危險(xiǎn)”。這也是Facebook自稱選擇開放的關(guān)鍵原因之一。
Meta AI 負(fù)責(zé)人Joelle Pineau承認(rèn),團(tuán)隊(duì)解決不了所有問題,包括文本生成過程中的倫理偏見和惡毒詞句。因此,他們誠邀天下豪杰,共同學(xué)習(xí);而實(shí)際上,這也是一種彼此監(jiān)督。
“我認(rèn)為,建立信任的唯一途徑是極端透明?!?/p>
我們查看了Meta提供的下載通道,發(fā)現(xiàn)實(shí)驗(yàn)室根據(jù)每個(gè)模型的參數(shù)規(guī)模設(shè)立了不同的下載條件:300億參數(shù)以下可隨意;而1750億參數(shù)值模型,也就是與GPT3大小相同的OPT,則需要填寫申請表證明用于非商業(yè)用途,獲得批準(zhǔn)后方可下載。
翻過大山,仍然是山
當(dāng)然,理論上這個(gè)做法是可圈可點(diǎn)的,但一個(gè)更大的問題出現(xiàn)了:如果你要使用這個(gè)1750億參數(shù)值的大模型,就意味著你的計(jì)算機(jī)要帶得動(dòng)它。
換句話說,你需要擁有足夠的算力,這里可以直接換算成“財(cái)力”。
“一個(gè)參數(shù)如果是FP32,也就是4個(gè)字節(jié)大小。而1750億參數(shù)值則先相當(dāng)于7000億字節(jié),大約700G顯存空間。而現(xiàn)在一張普通顯卡是20GB?!?一個(gè)開發(fā)者向虎嗅稱贊了Meta的做法,但他認(rèn)為,對于普通開發(fā)者群體,該模型仍然是不可承受之重。
“雖然可以把不同參數(shù)放在不同顯卡里的框架里,但據(jù)個(gè)人體驗(yàn),目前仍然欠缺開源成熟的框架?!?/p>
因此,截至目前,這個(gè)開源大模型,仍然是屬于大型科技公司、擁有充足資金的大型實(shí)驗(yàn)室與學(xué)術(shù)機(jī)構(gòu)的“內(nèi)部游戲”。
曾有家嘗試做中國版GPT3的創(chuàng)業(yè)公司嘆息說,他們也在想方設(shè)法實(shí)現(xiàn)GPT3可以實(shí)現(xiàn)的文字能力,但的確掣肘于有限算力。
事實(shí)上,除了巨頭,GPT3一直難以解決的商業(yè)化難題,是讓絕大部分企業(yè)呈觀望之勢的根本原因。盡管大型語言模型已成為過去幾年來人工智能領(lǐng)域最熱門的趨勢之一。但至少目前來看,除了品牌營銷優(yōu)勢,OpenAI 的投入產(chǎn)出比,很不盡如人意。
圖片來自MIT
此外,在西方社會(huì)普遍認(rèn)知中,比起技術(shù)突破,它們帶來的巨量能源消耗更是一種原罪。
科學(xué)家Emma Strubell與合作者在2019年發(fā)表的論文,就揭露了大型語言模型在碳排放上超乎想象的環(huán)境破壞力(上圖)。
他們發(fā)現(xiàn),用一種神經(jīng)結(jié)構(gòu)搜索方法(NAS)訓(xùn)練出的特定語言模型,可產(chǎn)生284噸(626155磅),上圖)二氧化碳,這大約是5輛小轎車長達(dá)5年的排放總量;
而谷歌搜索引擎的基礎(chǔ)——BERT語言模型訓(xùn)練,則產(chǎn)生了0.65噸二氧化碳,Strubell提醒,這相當(dāng)于一個(gè)乘客從紐約到舊金山往返航班的碳排放量。
更需要注意的是,這些數(shù)字都應(yīng)被視為“最保守?cái)?shù)值”:只是在一次性訓(xùn)練中的模型成本。
因此,考慮到能源效率與環(huán)境成本,西方不少科學(xué)家與開發(fā)者認(rèn)為,某種程度上,大模型的訓(xùn)練開發(fā)也是在允許大型企業(yè)掠奪著環(huán)境資源,而這些成本,將會(huì)平攤在所有人身上。因此,他們并不希望企業(yè)加入到大模型隊(duì)列中。
“盡管是無意識的,但這只會(huì)加大對邊緣人群的打擊?!?/p>
開源商業(yè)回報(bào),巨大且無形
很多時(shí)候,人們會(huì)對開源模式發(fā)出這樣的質(zhì)疑:
有什么能比“兩個(gè)來自競爭對手公司的員工,可以為同一個(gè)目標(biāo)協(xié)作,還免費(fèi)送出自己成果”更不可思議的事情?
譬如,可能連小學(xué)生都清楚的安卓系統(tǒng),就是基于開源的Linux操作系統(tǒng)。這意味著,任何人都可以查看絕大多數(shù)安卓手機(jī)的核心代碼,修改并分享它。
事實(shí)上,“開源”正是為不同利益群體,提供一種“利遠(yuǎn)大于弊”的長期技術(shù)合作方式——你增加的獨(dú)特元素我能使用,那么我迭代的版本你也不會(huì)錯(cuò)過。
這種“互利”態(tài)度,讓看似不可思議的“協(xié)作”成為可能,經(jīng)過100多年來的反復(fù)修正,早已成為一種常態(tài)。如今,Linux 就是由全世界超過15000名程序員共同開發(fā)和維護(hù)。
而在人工智能領(lǐng)域內(nèi),最有名的案例則是谷歌的深度學(xué)習(xí)開源框架Tensorflow。它已是開發(fā)人工智能應(yīng)用程序的標(biāo)準(zhǔn)框架之一。非常有趣,當(dāng)Tensorflow在2015年開源時(shí),外界也是發(fā)出了跟這次Meta開源大模型同樣的疑問:
作為開放者,谷歌為什么要放棄對自己搜索業(yè)務(wù)如此重要的東西?
一部分原因上面講過——外部開發(fā)人員把軟件做的更好,該軟件就能適應(yīng)谷歌未來商業(yè)化的很多需要。就像當(dāng)下,大模型商業(yè)化還尚不明朗,那么前期工作的開放性與主導(dǎo)性,就變得至關(guān)重要。
根據(jù)谷歌自己公布的數(shù)據(jù),已有超過1300名外部人員在TensorFlow上幫助升級迭代。而完善后的Tensorflow,則為谷歌云上的相關(guān)付費(fèi)服務(wù)輸送了強(qiáng)力支持。
另外,我們永遠(yuǎn)不要小看開源軟件為企業(yè)帶來的巨大營銷價(jià)值。
它最一流的“帶貨效果”,便是吸引和留住一眾頂尖人才,不知道為大廠省下多少高昂的人力資本。這也與當(dāng)下Meta開始收縮招聘規(guī)模的現(xiàn)狀,做了完美呼應(yīng)。
當(dāng)然,優(yōu)秀開源軟件打的時(shí)間差和聚攏效應(yīng),將會(huì)使后來者很難在短時(shí)間內(nèi)形成氣候,Tensorflow與一眾國產(chǎn)深度學(xué)習(xí)開源框架的往事就是最好的例子。
因此,Meta這一決定,將會(huì)讓OpenAI陷入一個(gè)尷尬的境地——雖然名聲很大,但它畢竟是一家創(chuàng)業(yè)公司。從另一個(gè)角度看,在尋找商業(yè)落地的過程中,大廠通過開放、免費(fèi)等手段遏制對手,取得勝利,這種事情似乎永遠(yuǎn)都在發(fā)生。
但好處在于,這會(huì)讓一家公司意識到,在商業(yè)世界,沒有一分鐘時(shí)間可用來頓足,絕不能停下創(chuàng)新的狂奔步伐——近期他們發(fā)布的達(dá)利系統(tǒng)第二代,也許是以GPT3為跳板,向文字與視覺融合方向躍升的最好標(biāo)志。
關(guān)鍵詞: 首次開源這一強(qiáng)大算法 我們向Meta致敬