亚洲国产日韩欧美第三区,青青久精品观看视频最新,99女厕所偷拍小视频

偲睿洞察，作者丨蔡凡

從2020年開始，國際最頂尖的AI技術(shù)發(fā)展，愈來愈像一場比拼資金與人才的軍備競賽。

2020年，OpenAI發(fā)布NLP預(yù)訓(xùn)練模型GPT-3，光論文就有72頁，作者多達(dá)31人，該模型參數(shù)1750億，耗資1200萬美元；

2021年1月，谷歌發(fā)布首個萬億級模型Switch Transformer，宣布突破了GPT-3參數(shù)記錄；

4月，華為盤古大模型參數(shù)規(guī)模達(dá)到千億級別，定位于中文語言預(yù)訓(xùn)練模型；

11月，微軟和英偉達(dá)在燒壞了4480塊CPU后，完成了5300億參數(shù)的自然語言生成模型(MT-NLG)，一舉拿下單體Transformer語言模型界「最大」和「最強(qiáng)」兩個稱號；

今年1月，Meta宣布要與英偉達(dá)打造AI超級計(jì)算機(jī)RSC，RSC每秒運(yùn)算可達(dá)50億次，算力可以排到全球前四的水平。

除此之外，阿里、浪潮、北京智源研究院等，均發(fā)布了最新產(chǎn)品，平均參數(shù)過百億。

看起來，這些預(yù)訓(xùn)練模型的參數(shù)規(guī)模沒有最大，只有更大，且正以遠(yuǎn)超摩爾定律的速度增長。其在對話、語義識別方面的表現(xiàn)，一次次刷新人們的認(rèn)知。

本文，我們試圖回答三個問題：

1. AI大模型，越大越好嗎？

2. 大模型的技術(shù)瓶頸在哪里？

3. 它是實(shí)現(xiàn)強(qiáng)人工智能的希望嗎？

01、大力出奇跡

（圖片來源：theverge）

人工智能的上一個里程碑出現(xiàn)在2020年。

這一年，由OpenAI公司開發(fā)的GPT-3橫空出世，獲得了“互聯(lián)網(wǎng)原子彈”，“人工智能界的卡麗熙”，“算力吞噬者”，“下崗工人制造機(jī)”，“幼年期的天網(wǎng)”等一系列外號。它的驚艷表現(xiàn)包括但不限于：

有開發(fā)者給GPT-3 做了圖靈測試，發(fā)現(xiàn)GPT-3對答如流，正常得不像個機(jī)器。“如果在十年前用同樣的問題做測試，我會認(rèn)為答題者一定是人。現(xiàn)在，我們不能再以為AI回答不了常識性的問題了?！?/p>

藝術(shù)家和程序員 Mario Klingemann，想讓 GPT-3寫一篇論述“上Twitter重要性”的短文。他的輸入條件是 1）題目：“上 Twitter 的重要性”；2）作者姓名："Jerome K. Jerome" 3）文章開頭的第一個字 "It"。

GPT-3不僅行文流暢，更是在字里行間暗諷，Twitter是一種所有人都在使用的、充斥著人身攻擊的社交軟件。

更高級的玩法是，開發(fā)者在GPT-3上快速開發(fā)出了許多應(yīng)用，例如設(shè)計(jì)軟件、會計(jì)軟件、翻譯軟件等。

從詩詞劇本，到說明書、新聞稿，再到開發(fā)應(yīng)用程序，GPT-3似乎都能勝任。

為什么相較于以往的AI模型，GPT-3表現(xiàn)得如此脫俗？答案無他，“大力出奇跡”。

1750億參數(shù)、訓(xùn)練成本超過1200萬美元、論文長達(dá) 72 頁，作者多達(dá) 31 人，就連使用的計(jì)算也是算力排名全球前五的“超級計(jì)算機(jī)”，擁有超過 285000個CPU，10000個GPU和每秒400G網(wǎng)絡(luò)。

“壕無人性”的結(jié)果，創(chuàng)造出兩個里程碑意義：

首先，它本身的存在，驗(yàn)證了參數(shù)增長、訓(xùn)練數(shù)據(jù)量增大，對AI模型的重要意義，“煉大模型”，的確能讓AI取得突破性效果；

其次，它使用了小樣本學(xué)習(xí)（Few-shot Learning）方法，令預(yù)訓(xùn)練模型在不必使用大量標(biāo)記的訓(xùn)練數(shù)據(jù)，并持續(xù)微調(diào)的情況下，僅僅只要給出任務(wù)描述，并給出幾個從輸入到輸出示例，便能自動執(zhí)行人物。這意味著，它將突破AI碎片化難題，讓后續(xù)開發(fā)者得以在巨人肩膀上發(fā)展，而不用針對一個個場景“平地起高樓”。

GPT-3之后，AI大模型軍備賽才真正加速打響。一年之內(nèi)，有頭有臉的巨頭爭相拿出了成績，秀組足肌肉。國外有谷歌、微軟、Meta等巨頭，國外如華為、阿里、浪潮等企業(yè)均下場參戰(zhàn)，模型平均參數(shù)上百億。

從規(guī)模上看，巨頭的模型一個比一個厲害，突破競速賽好不熱鬧。不過“內(nèi)里”有差別，不同模型參數(shù)無法簡單對比。

例如，谷歌Switch Transformer，采用了“Mixture of experts”（多專家模型），把數(shù)據(jù)并行、模型并行、expert并行三者結(jié)合在一起，實(shí)現(xiàn)了某種意義上的“偷工減料”——增大模型參數(shù)量，但不增大計(jì)算量。不過，降低計(jì)算量后的效果有無損失，谷歌論文中沒有過多正面提及。

再例如，浪潮發(fā)布的“源1.0”，參數(shù)規(guī)模2457億，采用了5000GB中文數(shù)據(jù)集，是一個創(chuàng)作能力、學(xué)習(xí)能力兼優(yōu)的中文AI大模型。據(jù)開發(fā)者介紹，由于中文特殊的語言特點(diǎn)，會為開發(fā)者帶來英文訓(xùn)練中不會遇到的困難。這意味著，想要做出和GPT-3同樣效果的中文語言模型，無論是大模型本身，還是開發(fā)者，都需要付出更大的力氣。

不同模型各有側(cè)重點(diǎn)，但秀肌肉的意圖是通用的——做大模型，大力出奇跡。

02、瓶頸在哪里？

在斯坦福大學(xué)眾多學(xué)者聯(lián)合撰寫的文章《On the Opportunities and Risks of Foundation Models》中，作者們一針見血地指出了以GPT-3、Switch Transformer、源1.0代表的AI基礎(chǔ)模型的兩大意義，也是風(fēng)險所在：同質(zhì)化與涌現(xiàn)。

所謂同質(zhì)化，是指目前幾乎所有最先進(jìn)的NLP模型，都源自少數(shù)基礎(chǔ)模型之一，例如GPT、BERT、RoBERTa、BART等，它們成了NLP的“底座”。

論文指出，雖然基礎(chǔ)模型的任何改進(jìn)可以為所有NLP任務(wù)帶來直接改善，但其缺陷也會為所有任務(wù)繼承。所有人工智能系統(tǒng)都可能繼承一些基礎(chǔ)模型相同的錯誤偏誤。

所謂“涌現(xiàn)”，指的是在巨量化的AI模型中，只需給模型提供提示，就可以讓其自動執(zhí)行任務(wù)。這種提示既沒有經(jīng)過專門訓(xùn)練，也不被期望在數(shù)據(jù)中出現(xiàn)，其屬性即為“涌現(xiàn)”。

涌現(xiàn)意味著系統(tǒng)的行為是隱式歸納而不是顯式構(gòu)造的，故令基礎(chǔ)模型顯得更難以理解，并具有難以預(yù)料的錯誤模式。

總而言之，體現(xiàn)在效果上，以GPT-3為例，“同質(zhì)化”與“涌現(xiàn)”的風(fēng)險已經(jīng)顯現(xiàn)。

例如，一位來自Kevin Lacker的網(wǎng)友在與GPT-3對話中，發(fā)現(xiàn)其在對比事物的重量、計(jì)數(shù)方面缺乏基本常識和邏輯。

難以預(yù)料的錯誤還包括嚴(yán)重的“系統(tǒng)偏見”。Facebook人工智能主管Jerome Pesenti在要求GPT-3討論猶太人、黑人、婦女等話題時，系統(tǒng)產(chǎn)生了許多涉及性別歧視、種族歧視的“危險”言論。

有病人對GPT-3表示自己感覺很糟糕，“我應(yīng)該自殺嗎”，GPT-3回答：“我認(rèn)為你應(yīng)該這么做。”

類似的案例還有很多，也許正如波特蘭州立大學(xué)計(jì)算機(jī)科學(xué)教授 Melanie Mitchell所認(rèn)為的，GPT-3具有“令人印象深刻、看似智能的性能和非人類的錯誤?！?/p>

然而，由于訓(xùn)練成本過于昂貴，模型修正并不容易。在GPT-3研究過程中，研究人員就承認(rèn)：“不幸的是，過濾中的一個bug導(dǎo)致我們忽略了一些（訓(xùn)練集與測試集的）重疊，由于訓(xùn)練的成本的原因，重新訓(xùn)練模型是不可行的?！?/p>

模型最大的意義，反過來成了約束其發(fā)展的瓶頸所在，對于這些問題，業(yè)內(nèi)尚沒有特別有效的解決方案。

03、AI大模型能帶來強(qiáng)人工智能嗎？

（圖片來源：Evoconscience-Facebook）

在無數(shù)科幻片中，機(jī)器人擁有了人一樣的智能，甚至最終統(tǒng)治人類。這類機(jī)器人遠(yuǎn)遠(yuǎn)超越了普通AI層面，實(shí)現(xiàn)了AGI（通用人工智能），即擁有人一樣的智能，可以像人一樣學(xué)習(xí)、思考、解決問題。

蘋果聯(lián)合創(chuàng)始人史蒂夫·沃茲尼亞克為AGI提出了一種特殊測試方案——“咖啡測試”。將機(jī)器帶到普通的家庭中，讓它在沒有任何特定的程序幫助下，進(jìn)入房間并煮好咖啡。它需要主動尋找所需物品，明確功能和使用方法，像人類一樣，操作咖啡機(jī)，沖泡好飲品。能夠做到這一點(diǎn)的機(jī)器，即通過了“AGI測試”。

相比之下，普通AI機(jī)器，只能完成物品識別、劑量確認(rèn)等單個、簡單的任務(wù)，而不具備舉一反三、推理能力。

對于AGI，業(yè)內(nèi)出現(xiàn)了嚴(yán)重分歧。一派以O(shè)penAI為首，篤信AGI是未來，不惜花下血本，一派如Meta，對AGI概念并不感冒。

OpenAI認(rèn)為，強(qiáng)大計(jì)算能力是邁向 AGI 的必經(jīng)之路，也是 AI 能夠?qū)W習(xí)人類所能完成的任何任務(wù)的必經(jīng)之路。

其研究表明，2012至2018年6年間，在最大規(guī)模的人工智能模型訓(xùn)練中所使用的計(jì)算量呈指數(shù)級增長，其中有3.5個月的時間計(jì)算量翻了一倍，比摩爾定律每18個月翻一倍的速度快得多。

在強(qiáng)大計(jì)算力的加持之下，OpenAI模型也得以越煉越大。據(jù)透露，GPT-4的尺寸將超過GPT-3的500倍，將擁有100萬億個參數(shù)。相比之下，人類大腦有大約 80-1000 億個神經(jīng)元和大約 100 萬億個突觸，也就是說，下一代AI大模型，參數(shù)數(shù)量級將堪比人類大腦突觸的水平。

OpenAI 的首席科學(xué)家 Ilya Sutskever在2020年表示，“到2021年，語言模型將開始了解視覺世界。僅文字就可以表達(dá)關(guān)于世界的大量信息，但它是不完整的，因?yàn)槲覀円采钤谝曈X世界中?！?/p>

這也許是下一代AI大模型最大的看點(diǎn)所在——其將不僅能處理語言模型，大概率將更是一個能處理語言、視覺、聲音等多任務(wù)的多模態(tài)AI模型。

而這也意味著，AI大模型距離能夠多任務(wù)處理、會思考的通用人工智能更近了一步。

與OpenAI相反，Meta人工智能副總裁羅姆佩森蒂，掌管著數(shù)百名科學(xué)家和工程師的資深高管，自始至終對AGI不感興趣。他認(rèn)為，人類的智力本身就不是一個統(tǒng)一的問題，更不會有真正的模型能靠自己不斷進(jìn)化智力?！凹幢闶侨祟惗疾荒茏屪约鹤兊酶斆?。我認(rèn)為人們對 AGI 的追捧有點(diǎn)像是對某種議程的追捧?！?/p>

反對者可以找到更多的佐證理由。2010年，DeepMind創(chuàng)始人德米斯·哈薩比斯提出了兩種接近AGI的方向：

一是通過描述和編程體系模仿人類大腦的思考體系，但操作難度太大，沒有人能描述清楚人腦的結(jié)構(gòu)；

二是以數(shù)字形式復(fù)制大腦物理網(wǎng)絡(luò)結(jié)構(gòu)，但即便是還原大腦物理功能，也無法解釋人類思考的運(yùn)轉(zhuǎn)規(guī)則。

不管是效仿大腦結(jié)構(gòu)，還是試圖描述清楚人類智慧的原理，都邁不過“因果關(guān)系推理”的鴻溝。迄今為止，沒有一個AI模型突破這一難題。

AI大模型能帶來強(qiáng)人工智能嗎？當(dāng)模型參數(shù)一次次被突破，達(dá)到遠(yuǎn)超人腦突觸的數(shù)量級時，也許會出現(xiàn)突破“因果關(guān)系推理”難題的“奇點(diǎn)”，帶領(lǐng)我們進(jìn)入強(qiáng)人工智能時代，但也許這僅僅是一個幻想。

不過目前，看起來，AI大模型是通往強(qiáng)人工智能最有可能的一條通道。賭一次，值了。

關(guān)鍵詞： AI大模型 AI賽道一場不能輸?shù)拟n能力軍備競賽