天天簡訊:從BERT到ChatGPT,百頁綜述梳理預(yù)訓(xùn)練大模型演變史

發(fā)布時間:2023-03-01 18:52:27  |  來源:騰訊網(wǎng)  

機(jī)器之心報道

編輯:張倩


(資料圖片僅供參考)

這篇近百頁的綜述梳理了預(yù)訓(xùn)練基礎(chǔ)模型的演變史,讓我們看到 ChatGPT 是怎么一步一步走向成功的。

所有的成功都有跡可循,ChatGPT 也不例外。

前不久,因為對 ChatGPT 的

評價過于苛刻

,圖靈獎得主 Yann LeCun 被送上了熱搜。

在他看來,「就底層技術(shù)而言,ChatGPT 并沒有什么特別的創(chuàng)新,」也不是「什么革命性的東西」。許多研究實驗室正在使用同樣的技術(shù),開展同樣的工作。更重要的是,ChatGPT 及其背后的 GPT-3 在很多方面都是由多方多年來開發(fā)的多種技術(shù)組成的,是不同的人數(shù)十年貢獻(xiàn)的結(jié)果。因此,LeCun 認(rèn)為,與其說 ChatGPT 是一個科學(xué)突破,不如說它是一個像樣的工程實例。

「ChatGPT 是否具有革命性」是個充滿爭議的話題。但毋庸置疑,它確實是在此前積累的多項技術(shù)的基礎(chǔ)上構(gòu)建起來的,比如核心的 Transformer 是谷歌在幾年前提出來的,而 Transformer 又受到了 Bengio 關(guān)于注意力概念的工作的啟發(fā)。如果再往前追溯,我們還能鏈接到更古早的幾十年前的研究。

當(dāng)然,公眾可能體會不到這種循序漸進(jìn)的感覺,畢竟不是誰都會一篇一篇去看論文。但對于技術(shù)人員來說,了解這些技術(shù)的演進(jìn)過程還是非常有幫助的。

在最近的一篇綜述文章中,來自密歇根州立大學(xué)、北京航空航天大學(xué)、理海大學(xué)等機(jī)構(gòu)的研究者仔細(xì)梳理了該領(lǐng)域的幾百篇論文,主要聚焦文本、圖像和圖學(xué)習(xí)領(lǐng)域的預(yù)訓(xùn)練基礎(chǔ)模型,非常值得一讀。杜克大學(xué)教授、加拿大工程院院士裴健,伊利諾大學(xué)芝加哥分校計算機(jī)科學(xué)系特聘教授俞士綸(Philip S. Yu),Salesforce AI Research?副總裁蔡明都是該論文作者之一。

論文鏈接:https://arxiv.org/pdf/2302.09419.pdf

論文目錄如下:

在海外社交平臺上,DAIR.AI 聯(lián)合創(chuàng)始人Elvis S.推薦了這篇綜述并獲得了一千多的點(diǎn)贊量。

引言

預(yù)訓(xùn)練基礎(chǔ)模型(PFM)是大數(shù)據(jù)時代人工智能的重要組成部分?!富A(chǔ)模型」的名字來源于 Percy Liang、李飛飛等人發(fā)布的一篇綜述 ——《

On the Opportunities and Risks of Foundation Models

》,是一類模型及其功能的總稱。在 NLP、CV 和圖學(xué)習(xí)領(lǐng)域,PFM 已經(jīng)得到了廣泛研究。在各種學(xué)習(xí)任務(wù)中,它們表現(xiàn)出了強(qiáng)大的特征表示學(xué)習(xí)潛力,如文本分類、文本生成、圖像分類、目標(biāo)檢測和圖分類等任務(wù)。無論是用大型數(shù)據(jù)集在多個任務(wù)上訓(xùn)練,還是在小規(guī)模任務(wù)上進(jìn)行微調(diào),PFM 都表現(xiàn)出了優(yōu)越的性能,這使其快速啟動數(shù)據(jù)處理成為可能。

PFM 和預(yù)訓(xùn)練

PFM 基于預(yù)訓(xùn)練技術(shù),其目的是利用大量的數(shù)據(jù)和任務(wù)來訓(xùn)練一個通用模型,該模型可以在不同的下游應(yīng)用中很容易地進(jìn)行微調(diào)。

預(yù)訓(xùn)練的想法起源于 CV 任務(wù)中的遷移學(xué)習(xí)。但看到該技術(shù)在 CV 領(lǐng)域的有效性后,人們也開始利用該技術(shù)提高其他領(lǐng)域的模型性能。

當(dāng)預(yù)訓(xùn)練技術(shù)應(yīng)用于 NLP 領(lǐng)域時,經(jīng)過良好訓(xùn)練的語言模型可以捕捉到對下游任務(wù)有益的豐富知識,如長期依賴關(guān)系、層次關(guān)系等。此外,預(yù)訓(xùn)練在 NLP 領(lǐng)域的顯著優(yōu)勢是,訓(xùn)練數(shù)據(jù)可以來自任何未標(biāo)記的文本語料庫,也就是說,幾乎存在著無限量的訓(xùn)練數(shù)據(jù)可以用于預(yù)訓(xùn)練過程。早期的預(yù)訓(xùn)練是一種靜態(tài)技術(shù),如 NNLM 和 Word2vec,但靜態(tài)方法很難適應(yīng)不同的語義環(huán)境。因此,人們提出了動態(tài)預(yù)訓(xùn)練技術(shù),如 BERT、XLNet 等。圖 1 描述了 PFM 在 NLP、CV 和 GL 領(lǐng)域的歷史和演變?;陬A(yù)訓(xùn)練技術(shù)的 PFM 使用大型語料庫來學(xué)習(xí)通用語義表征。隨著這些開創(chuàng)性工作的引入,各種 PFM 已經(jīng)出現(xiàn),并被應(yīng)用于下游的任務(wù)和應(yīng)用。

最近走紅的 ChatGPT 是 PFM 應(yīng)用的典型案例。它是從生成性預(yù)訓(xùn)練 transformer 模型 GPT-3.5 中微調(diào)出來的,該模型利用了大量本文和代碼進(jìn)行訓(xùn)練。此外,ChatGPT 還應(yīng)用了來自人類反饋的強(qiáng)化學(xué)習(xí)(RLHF),這已經(jīng)成為讓大型 LM 與人類意圖保持一致的一種有希望的方式。ChatGPT 卓越的性能表現(xiàn)可能會給每種類型的 PFM 的訓(xùn)練范式帶來轉(zhuǎn)變,比如指令對齊技術(shù)、強(qiáng)化學(xué)習(xí)、prompt tuning 和思維鏈的應(yīng)用,從而走向通用人工智能。

本文將重點(diǎn)放在文本、圖像和圖領(lǐng)域的 PFM,這是一個相對成熟的研究分類方法。對于文本來說,它是一個多用途的 LM,用于預(yù)測序列中的下一個單詞或字符。例如,PFM 可用于機(jī)器翻譯、問答系統(tǒng)、主題建模、情感分析等。對于圖像,它類似于文本上的 PFM,使用巨大的數(shù)據(jù)集來訓(xùn)練一個適合許多 CV 任務(wù)的大模型。對于圖來說,類似的預(yù)訓(xùn)練思路也被用于獲得 PFM,這些 PFM 被用于許多下游任務(wù)。除了針對特定數(shù)據(jù)域的 PFM,本文還回顧并闡述了其他一些先進(jìn)的 PFM,如針對語音、視頻和跨域數(shù)據(jù)的 PFM,以及多模態(tài) PFM。此外,一場能夠處理多模態(tài)任務(wù)的的 PFM 的大融合正在出現(xiàn),這就是所謂的 unified PFM。作者首先定義了 unified PFM 的概念,然后回顧了最近研究中達(dá)到 SOTA 的 unified PFM(如 OFA、UNIFIED-IO、FLAVA、BEiT-3 等)。

根據(jù)上述三個領(lǐng)域現(xiàn)有的 PFM 的特點(diǎn),作者得出結(jié)論,PFM 有以下兩大優(yōu)勢。首先,要想提高在下游任務(wù)中的性能,模型只需要進(jìn)行很小的微調(diào)。其次,PFM 已經(jīng)在質(zhì)量方面得到了審查。我們可以將 PFM 應(yīng)用于任務(wù)相關(guān)的數(shù)據(jù)集,而不是從頭開始構(gòu)建模型來解決類似的問題。PFM 的廣闊前景激發(fā)了大量的相關(guān)工作來關(guān)注模型的效率、安全性和壓縮等問題。

論文貢獻(xiàn)與結(jié)構(gòu)

在這篇文章發(fā)布之前,已經(jīng)有幾篇綜述回顧了一些特定領(lǐng)域的預(yù)訓(xùn)練模型,如文本生成、視覺 transformer、目標(biāo)檢測。

《On the Opportunities and Risks of Foundation Models》總結(jié)了基礎(chǔ)模型的機(jī)會和風(fēng)險。然而,現(xiàn)有的工作并沒有實現(xiàn)對不同領(lǐng)域(如 CV、NLP、GL、Speech、Video)PFM 在不同方面的全面回顧,如預(yù)訓(xùn)練任務(wù)、效率、效力和隱私。在這篇綜述中,作者詳細(xì)闡述了 PFM 在 NLP 領(lǐng)域的演變,以及預(yù)訓(xùn)練如何遷移到 CV 和 GL 領(lǐng)域并被采用。

與其他綜述相比,本文沒有對所有三個領(lǐng)域的現(xiàn)有 PFM 進(jìn)行全面的介紹和分析。與對先前預(yù)訓(xùn)練模型的回顧不同,作者總結(jié)了現(xiàn)有的模型,從傳統(tǒng)模型到 PFM,以及三個領(lǐng)域的最新工作。傳統(tǒng)模型強(qiáng)調(diào)的是靜態(tài)特征學(xué)習(xí)。動態(tài) PFM 對結(jié)構(gòu)進(jìn)行了介紹,這是主流的研究。

作者進(jìn)一步介紹了 PFM 的一些其他研究,包括其他先進(jìn)和統(tǒng)一的 PFM、模型的效率和壓縮、安全以及隱私。最后,作者總結(jié)了未來的研究挑戰(zhàn)和不同領(lǐng)域的開放問題。他們還在附錄 F 和 G 中全面介紹了相關(guān)的評價指標(biāo)和數(shù)據(jù)集。?

總之,本文的主要貢獻(xiàn)如下:

對 PFM 在 NLP、CV 和 GL 中的發(fā)展進(jìn)行了詳實和最新的回顧。在回顧中,作者討論并提供了關(guān)于這三個主要應(yīng)用領(lǐng)域中通用 PFM 的設(shè)計和預(yù)訓(xùn)練方法的見解;

總結(jié)了 PFM 在其他多媒體領(lǐng)域的發(fā)展,如語音和視頻。此外,作者還討論了關(guān)于 PFM 的前沿話題,包括統(tǒng)一的 PFM、模型效率和壓縮,以及安全和隱私。

通過對各種模式的 PFM 在不同任務(wù)中的回顧,作者討論了大數(shù)據(jù)時代超大型模型未來研究的主要挑戰(zhàn)和機(jī)遇,這指導(dǎo)了新一代基于 PFM 的協(xié)作和互動智能。

各個章節(jié)的主要內(nèi)容如下:

論文第 2 章介紹了 PFM 的一般概念架構(gòu)。

第 3、4、5 章分別總結(jié)了 NLP、CV 和 GL 領(lǐng)域中現(xiàn)有的 PFM。

第 6、7 章介紹了 PFM 的其他前沿研究,包括前沿和統(tǒng)一的 PFM、模型效率和壓縮,以及安全和隱私。

第 8 章總結(jié)了 PFM 的主要挑戰(zhàn)。第 9 章對全文進(jìn)行了總結(jié)。

關(guān)鍵詞: 從BERT到ChatGPT 百頁綜述梳理預(yù)訓(xùn)練大模型演變史

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com