機(jī)器之心報(bào)道
編輯:張倩
(資料圖片僅供參考)
InstructGPT 和 ChatGPT 之間有很多一脈相承之處。因此,吃透 InstructGPT 論文對(duì)于想要在 ChatGPT 方向上做些工作的同學(xué)來(lái)說(shuō)將大有裨益。
在 ChatGPT 走紅之后,很多關(guān)注技術(shù)的同學(xué)都在問(wèn)一個(gè)問(wèn)題:有沒(méi)有什么學(xué)習(xí)資料可以讓我們系統(tǒng)地了解 ChatGPT 背后的原理?由于 OpenAI 還沒(méi)有發(fā)布 ChatGPT 相關(guān)論文,這一問(wèn)題變得棘手起來(lái)。
不過(guò),從 OpenAI 關(guān)于 ChatGPT 的博客中我們知道,ChatGPT 用到的方法和它的兄弟模型 ——InstructGPT 一樣,只不過(guò) InstructGPT 是在 GPT-3 上微調(diào)的,而 ChatGPT 則是基于 GPT-3.5。在數(shù)據(jù)收集工作上,二者也存在一些差別。
博客鏈接:https://openai.com/blog/chatgpt/
InstructGPT 的論文發(fā)布于 2022 年 3 月,不過(guò) OpenAI 早在 1 月份就發(fā)布了相關(guān)博客(參見(jiàn)《
GPT-3 胡言亂語(yǔ)怎么辦?OpenAI:我們重新調(diào)教了一下,新版本更「聽(tīng)話(huà)」
》)。當(dāng)時(shí),OpenAI 明確提到,InstructGPT 利用了人類(lèi)反饋的強(qiáng)化學(xué)習(xí)方法(RLHF)對(duì) GPT-3 進(jìn)行微調(diào),使得該模型的輸出更加符合人類(lèi)偏好,這點(diǎn)在 ChatGPT 的訓(xùn)練中得到了延續(xù)。
論文鏈接:https://arxiv.org/pdf/2203.02155.pdf
除此之外,InstructGPT 和 ChatGPT 之間還有很多一脈相承之處。因此,吃透 InstructGPT 論文對(duì)于想要在 ChatGPT 方向上做些工作的同學(xué)來(lái)說(shuō)將大有裨益。這也是我們力薦李沐這節(jié)精講課的原因。
李沐博士是亞馬遜的資深首席科學(xué)家,之前和 Aston Zhang 等人共同撰寫(xiě)了《動(dòng)手學(xué)深度學(xué)習(xí)》。最近兩年,他一直通過(guò)視頻向大家介紹各種 AI 知識(shí),制作了幾十篇論文的精讀課程。很多同學(xué)已經(jīng)養(yǎng)成了跟著李沐精讀論文的習(xí)慣。
李沐博士在 B 站的賬號(hào)是「跟李沐學(xué) AI」。
這節(jié)針對(duì) InstructGPT 的解讀課程總共 67 分鐘,基本按照論文撰寫(xiě)的順序進(jìn)行介紹。
看過(guò) ChatGPT 博客的同學(xué)都知道,它的技術(shù)原理基本用一張圖就能概括,這也是 InstructGPT 論文中就已經(jīng)出現(xiàn)的一張圖(二者有細(xì)微差別)。在解讀論文的摘要和引言部分時(shí),李沐詳細(xì)介紹了圖上的三個(gè)步驟。
ChatGPT 博客中的技術(shù)原理圖。
InstructGPT 論文中的技術(shù)原理圖。
在論文的第三章,InstructGPT 的作者首先介紹了他們的數(shù)據(jù)獲取方法和過(guò)程,李沐也帶著大家詳細(xì)讀了一下。這部分在工程方面非常有價(jià)值。正如李沐所說(shuō),如果你之前沒(méi)有做過(guò)這樣的事情(數(shù)據(jù)標(biāo)注等),需要找人幫你標(biāo)數(shù)據(jù),那么你可以看它的附錄部分,里面有很多模板可以直接拿來(lái)用,論文作者甚至描述了他們標(biāo)注網(wǎng)站的 UI 長(zhǎng)什么樣,非常值得借鑒。
接下來(lái),李沐重點(diǎn)解讀了第三章寫(xiě)到的 3 個(gè)模型(見(jiàn) 3.5 Models )——SFT (Supervised fine-tuning) 模型、RM (Reward modeling) 模型和 RL (Reinforcement learning) 模型,包括這些模型涉及的參數(shù)和目標(biāo)函數(shù)等細(xì)節(jié)。
最后,李沐總結(jié)說(shuō),從技術(shù)上來(lái)講,InstructGPT 還是一個(gè)非常實(shí)用的技術(shù)。它告訴了大家一個(gè)方法:給定一個(gè)大型語(yǔ)言模型,你怎樣通過(guò)一些標(biāo)注數(shù)據(jù)迅速地提升它在某一個(gè)你關(guān)心的領(lǐng)域中的性能,使它達(dá)到實(shí)用的程度。所以,它給想用生成模型做產(chǎn)品的人提供了一個(gè)可操作的思路。
當(dāng)然,正如李沐博士所說(shuō),科研工作是循序漸進(jìn)的,InstructGPT 也是建立在之前研究的基礎(chǔ)上,所以想要吃透 ChatGPT 的同學(xué)不免還要回頭去讀更多論文。在之前的課程中,李沐也詳細(xì)解讀過(guò) GPT、GPT-2、GPT-3 的論文:
關(guān)鍵詞: 跟李沐學(xué)ChatGPT背后技術(shù)67分鐘讀透InstructGPT論文 python