如今距離OpenAI于3月中旬推出其最新版本的大型語(yǔ)言模型GPT-4已經(jīng)有近3個(gè)月的時(shí)間。這段時(shí)間內(nèi),盡管全球資本市場(chǎng)對(duì)人工智能、大模型和算力的炒作此起彼伏,也有人稱贊GPT-4這個(gè)版本強(qiáng)大的能力,但卻很少有人質(zhì)疑GPT-4是否真的比此前更早期的版本強(qiáng)大。
近期,網(wǎng)上對(duì)GPT-4是否出現(xiàn)退化的質(zhì)疑聲開始涌現(xiàn)出來(lái),越來(lái)越多的網(wǎng)友開始表示,GPT-4對(duì)復(fù)雜程度相似的問題處理結(jié)果甚至還不如它的前身GPT-3或GPT-3.5。面對(duì)網(wǎng)友的大量質(zhì)疑,OpenAI官方開發(fā)者推廣大使回應(yīng)稱,GPT-4處于靜止?fàn)顟B(tài),且自3月 14日發(fā)布以來(lái)沒有做過改動(dòng)。
可能突破萬(wàn)億參數(shù)的GPT-4,被OpenAI“狂吹”
根據(jù)OpenAI自己的說法,GPT-3擁有1750億個(gè)參數(shù),但GPT-4的規(guī)模可能會(huì)達(dá)到數(shù)千億個(gè)參數(shù),甚至可能會(huì)突破萬(wàn)億級(jí)別。這一規(guī)模的提升將有助于提高模型的表現(xiàn)力和泛化能力,使其更能適應(yīng)各種語(yǔ)言任務(wù),同時(shí)也意味著GPT-4接受了更多的數(shù)據(jù)訓(xùn)練,模型文件中有更多的權(quán)重(參數(shù)),這也使得它的運(yùn)行成本更高。
【資料圖】
此外,GPT-4可以更準(zhǔn)確地解決人們的難題,多模態(tài)的GPT-4還可以生成、編輯具有創(chuàng)意性或技術(shù)性的文章,在高級(jí)推理方面的表現(xiàn)超過其前身。當(dāng)然,正如大家所猜測(cè)的那樣,微軟New Bing的聊天功能確實(shí)基于GPT-4。OpenAI稱,該模型“比以往任何時(shí)候都更具創(chuàng)造性和協(xié)作性”,“可以更準(zhǔn)確地解決難題”。它可以解析文本和圖像輸入,盡管它只能通過文本進(jìn)行響應(yīng)。
官方表示,GPT-4錯(cuò)誤答案更少,而且也會(huì)減少偏離話題的可能,也盡可能不會(huì)再談?wù)摻稍掝},甚至在許多標(biāo)準(zhǔn)化測(cè)試中比人類表現(xiàn)得都要更好一些。
例如,GPT-4在模擬律師考試的成績(jī)?cè)诳忌信琶?0%左右,在SAT閱讀考試中排名前7%左右,在SAT數(shù)學(xué)考試中排名前11%左右。相比之下,GPT-3.5在律師考試中的得分一般都是倒數(shù)10%左右。當(dāng)然,它們考個(gè)研究生還是沒問題的。
圖片來(lái)源:OpenAI
不少業(yè)內(nèi)人士也對(duì)GPT-4的未來(lái)應(yīng)用前景表示看好,稱GPT-4的出現(xiàn)將進(jìn)一步推動(dòng)AI語(yǔ)言模型領(lǐng)域的發(fā)展。作為下一代AI語(yǔ)言模型,GPT-4將會(huì)在各方面都得到進(jìn)一步的改善,包括語(yǔ)言理解、生成、多語(yǔ)種支持等等。同時(shí),GPT-4也將會(huì)在各個(gè)應(yīng)用場(chǎng)景中得到廣泛應(yīng)用,為各個(gè)行業(yè)帶來(lái)更加高效和智能的解決方案。
有網(wǎng)友4月份就對(duì)GPT-4是否退化發(fā)出質(zhì)疑
那么,GTP-4真的如OpenAI自己所稱的那樣更強(qiáng)大嗎?
就在美東時(shí)間本周早些時(shí)候,Ycombinator上已有網(wǎng)友提出質(zhì)疑,稱“(GPT-4)確實(shí)比以前快很多,但它的輸出質(zhì)量更像是GPT-3.5++。GPT-4產(chǎn)生了更多的bug代碼,答案也缺乏深度和分析,總體感覺上比以前要糟糕很多。”
圖片來(lái)源:Ycombinator
在上述網(wǎng)友的帖子下方,另一名網(wǎng)友回復(fù)稱,“是的。在更新之前,GPT(的上一個(gè)版本)能毫不費(fèi)力地解決相當(dāng)復(fù)雜的編程問題,并對(duì)非編程問題給出非常微妙且像是經(jīng)過深思熟慮的答案。如今,GPT-4只能修改一個(gè)10行CSS模塊中的兩行,并再次給出這修改后的10行模塊,不僅感到非常吃力,而且給出的答案中有些內(nèi)容毫無(wú)關(guān)系……”
還有網(wǎng)友表示,“OpenAI的(最新)模型給我的感覺是100%被削弱了。幾個(gè)月前我用它(的早期版本)解決了非常復(fù)雜的問題(例如編寫一個(gè)最小的PDF解析器示例),但今天你會(huì)因?yàn)閱柫诉@么復(fù)雜的任務(wù)被GPT-4‘責(zé)備’?!?/strong>這名網(wǎng)友最后還稱,他已經(jīng)決定取消訂閱他的OpenAI會(huì)員資格。
圖片來(lái)源:Ycombinator
在推特上,有網(wǎng)友稱把GPT-4的3小時(shí)25條對(duì)話額度一口氣用完了,都沒能解決自己的代碼問題,最后無(wú)奈切換回了GPT-3.5。
圖片來(lái)源:推特
《每日經(jīng)濟(jì)新聞》記者還注意到,網(wǎng)上關(guān)于GPT-4是否退化的討論,其實(shí)在1個(gè)月前就已經(jīng)有了。當(dāng)時(shí)有網(wǎng)友在美國(guó)版天涯+貼吧平臺(tái)Reddit上,對(duì)GPT-4是否“變笨”發(fā)出質(zhì)疑。這名當(dāng)時(shí)網(wǎng)友稱,“在過去幾天里,我經(jīng)歷了GPT-4性能的明顯下降。它的推理能力已經(jīng)退化到GPT-3的水平,而且它正在努力完成上個(gè)月剛剛為我完成的任務(wù)。今晚的性能還是最糟糕的。這是怎么回事?”
圖片來(lái)源:Reddit
在OpenAI的官方開發(fā)者論壇,有網(wǎng)友在4月30日就發(fā)帖稱,“一周前,我用GPT4為MS飛行模擬器創(chuàng)建了一個(gè)非常簡(jiǎn)單的C#應(yīng)用程序。這太神奇了,我只(手動(dòng))更正了一次。今天我用了同樣的提示詞,但經(jīng)過多次修改后GPT-4還是不能正常使用。”
圖片來(lái)源:OpenAI
一時(shí)間,關(guān)于“GPT-4退化了”、“OpenAI為了節(jié)省成本開始偷工減料”等質(zhì)疑聲開始在Ycombinator、Reddit和推特等平臺(tái)快速蔓延開來(lái)。速度如此之快,就連OpenAI官方的開發(fā)者推廣大使Logan Kilpatrick都出面來(lái)公開回應(yīng)網(wǎng)友的質(zhì)疑:“API不會(huì)在沒有我們通知您的情況下更改。”
圖片來(lái)源:推特
在上述推文下方,Logan還回復(fù)了網(wǎng)友一些問題,他稱,GPT-4自從3月14日發(fā)布以來(lái)未發(fā)生改動(dòng)。他還表示,GPT-4對(duì)于一些提示詞給出的回答內(nèi)容不一致,是由于大模型本身不穩(wěn)定。不過,針對(duì)網(wǎng)頁(yè)版GPT-4是否被降級(jí)過的追問,均未得到其本人的正面回答。
圖片來(lái)源:推特
另?yè)?jù)監(jiān)管機(jī)構(gòu)NewsGuard的專家分析,OpenAI最新版本的GPT-4大型語(yǔ)言模型在輸出信息方面,確實(shí)比它的前身GPT-3.5還要糟糕。在今年3月份發(fā)布的報(bào)告中,NewsGuard就指出,GPT-4不僅在其研究人員的提示下回答了完全虛假的新聞敘述,而且甚至比GPT-3.5回答的內(nèi)容更差。
封面圖片來(lái)源:視覺中國(guó)