AIGC 軍備競賽開啟,但訓(xùn)練大模型存在的問題卻無解?|全球報道

發(fā)布時間:2023-03-13 17:45:51  |  來源:騰訊網(wǎng)  

作者 | Chris Stokel-Walker

譯者 | Sambodhi


(資料圖片僅供參考)

策劃 | 凌敏

生成式人工智能繁榮的背后,是令人恐懼的碳排放量。

今年二月初,谷歌和微軟先后宣布了對其搜索引擎進行重大變革。這兩家科技巨頭都在構(gòu)建或購買生成式人工智能工具上投入了大量資金,這些工具利用大型語言模型來理解并回應(yīng)復(fù)雜問題?,F(xiàn)在他們正嘗試將這些工具整合到搜索中,期望能夠為用戶帶來更加豐富和精準(zhǔn)的使用體驗。中國的搜索引擎公司百度已經(jīng)宣布,他們也會跟進。

但是,人們對新工具的欣喜若狂,卻隱藏了一個不可告人的秘密。為了打造高性能、人工智能驅(qū)動的搜索引擎,這場競賽將會要求大量的計算能力,同時也會導(dǎo)致科技公司的能耗和碳排放量的大幅增長。

英國薩里大學(xué)(University of Surrey)網(wǎng)絡(luò)安全教授艾倫·伍德沃德(Alan Woodward)表示:“我們已經(jīng)投入了大量的人力物力來進行索引和搜索互聯(lián)網(wǎng)內(nèi)容,但要將人工智能納入其中,就必須要有多重方法。這要求具備數(shù)據(jù)處理、存儲和高效檢索的功能。無論何時,只要我們看到一個在線處理過程的改變,我們就會發(fā)現(xiàn),對于大型處理中心,需要的電能和制冷資源都會有很大的增長。我想,這是一個很好的步驟?!?/p>

訓(xùn)練大型語言模型(Large Language Model,LLM),例如那些支撐 OpenAI 的 ChatGPT 的模型,它將為微軟增強版必應(yīng)搜索引擎和谷歌的同類產(chǎn)品 Bard 提供強大的支持,這就意味著可以分析并處理海量數(shù)據(jù),這也是為何它們通常都是擁有可觀資源的宮鎖所開發(fā)的原因。

“訓(xùn)練這些模型需要大量的計算能力,”西班牙科魯尼亞大學(xué)(University of Coru?a)的計算機科學(xué)家卡洛斯·戈麥斯 - 羅德里格斯(Carlos Gómez-Rodríguez)說,“目前,只有大型科技公司才能訓(xùn)練它們?!?/p>

盡管 OpenAI 和谷歌都沒有透露其產(chǎn)品的計算成本費用,但是第三方的研究者分析認(rèn)為,ChatGPT 部分基于的 GPT-3 的訓(xùn)練所耗費的功率為 1287 兆瓦,所產(chǎn)生的的碳排放量超過 550 噸,相當(dāng)于一個人在紐約和舊金山之間往返 550 次的碳排放量。

戈麥斯 - 羅德里格斯說:“這并沒有那么糟糕,但你必須考慮到這個事實:你不僅要訓(xùn)練它,還要執(zhí)行它,為數(shù)百萬用戶提供服務(wù)。”

將 ChatGPT 作為獨立產(chǎn)品使用,與將其整合到每天處理約 5 億次搜索的必應(yīng)中,也是有很大區(qū)別的。據(jù)瑞銀估計,ChatGPT 每天約有 1300 萬用戶。

加拿大數(shù)據(jù)中心公司 QScale 的聯(lián)合創(chuàng)始人馬丁·布沙爾(Martin Bouchard)認(rèn)為,根據(jù)他對微軟和谷歌搜索計劃的解讀,在這一過程中加入生成式人工智能至少需要“每次搜索至少四到五倍的計算”。他指出,ChatGPT 目前在 2021 年底停止對世界的理解,作為削減計算需求的嘗試的一部分。

為了滿足搜索引擎用戶的需求,這種情況必須改變?!叭绻麄円?jīng)常重新訓(xùn)練模型,并添加更多的參數(shù)和東西,那就是一個完全不同的規(guī)模的事情了?!彼f。

這就要求在硬件方面投入大量的資金?!爱?dāng)前的數(shù)據(jù)中心以及我們現(xiàn)有的基礎(chǔ)設(shè)施都無法與生成式人工智能進行競賽,”布沙爾說,“這太過分了?!?/p>

根據(jù)國際能源署(International Energy Agency)的數(shù)據(jù),數(shù)據(jù)中心的溫室氣體排放量已經(jīng)占到全球總排放量的 1% 左右。由于對云計算的需求不斷增加,這個數(shù)據(jù)會有所增加,但是運營搜索業(yè)務(wù)的公司已承諾要降低他們在全球變暖的凈貢獻。

戈麥斯 - 羅德里格斯表示:“這肯定沒有運輸業(yè)或紡織業(yè)那么糟糕。但是,人工智能對碳排放的影響很大?!?/p>

微軟承諾到 2050 年實現(xiàn)負(fù)碳排放。該公司計劃在今年購買價值 150 萬公噸的碳信用額度。谷歌已承諾到 2030 年在全業(yè)務(wù)和全產(chǎn)業(yè)鏈上達到凈零排放。OpenAI 和微軟均未對此承諾置評。

將人工智能整合到搜索中的環(huán)境足跡和能源成本,可以通過將數(shù)據(jù)中心轉(zhuǎn)移到更的能源來源,以及通過重新設(shè)計神經(jīng)網(wǎng)絡(luò)以提高效率,減少所謂的“推理時間”(一種算法處理新數(shù)據(jù)所需的計算能力)來降低。

“我們必須研究如何減少這種大型模型所需的推理時間,”該謝菲爾德大學(xué)(University of Sheffield)自然語言處理講師納菲斯·薩達特·穆薩維(Nafise Sadat Moosavi)表示?!艾F(xiàn)在是專注于效率方面的好時機?!?/p>

谷歌發(fā)言人簡·帕克(Jane Park)告訴 WIRED,谷歌最初發(fā)布的 Bard 版本是由一個更輕量級的大型語言模型驅(qū)動的。

“我們還發(fā)表了研究報告,詳細介紹了最先進的語言模型的能源成本,包括較早和較大的 LaMDA 版本,”帕克說?!拔覀兊难芯拷Y(jié)果表明,將高效模型、處理器和數(shù)據(jù)中心與能源相結(jié)合,可以將機器學(xué)習(xí)系統(tǒng)的碳足跡降低 1000 倍。

問題在于,對于谷歌來說,要想提高一點搜索準(zhǔn)確率,就必須要增加更多的計算量和不必要的麻煩,這是否值得。但穆薩維說,盡管重視 LLM 所產(chǎn)生的能耗和碳排放的總量是非常重要的,但是還是要有一些觀點。

“這對最終用戶來說真是太好了,”她說,“因為以前的大型語言模型并不是所有人都能使用的?!?/p>

作者簡介:

Chris Stokel-Walker,自由撰稿人、WIRED 撰稿人。

https://www.wired.com/story/the-generative-ai-search-race-has-a-dirty-secret/

文章版權(quán)歸極客邦科技 InfoQ 所有,未經(jīng)許可不得轉(zhuǎn)載。

關(guān)鍵詞:

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com