肖仰華表示,“從具體實(shí)現(xiàn)技術(shù)路線上來講,ChatGPT面向領(lǐng)域的優(yōu)化路線已經(jīng)十分清晰,不存在太大的障礙。只要將醫(yī)療數(shù)據(jù)與醫(yī)療知識庫準(zhǔn)備好,進(jìn)行體現(xiàn)領(lǐng)域特點(diǎn)的持續(xù)訓(xùn)練,大模型很快就會(huì)學(xué)到更多醫(yī)療領(lǐng)域的專門知識。不過,領(lǐng)域數(shù)據(jù)如何有效治理、領(lǐng)域知識如何植入、領(lǐng)域大模型如何廉價(jià)訓(xùn)練仍有較大研究空間。此外,醫(yī)療數(shù)據(jù)比較敏感,涉及用戶隱私,是個(gè)不可回避的問題。”
?這一次推出的是面向聊天任務(wù)的GPT,即Chat版本的GPT,將來可能會(huì)有很多其他任務(wù)形態(tài)的GPT,比如醫(yī)療場景中的診斷GPT。大模型作為機(jī)器醫(yī)生與人類交互,還需要解決與人類共情的難題。畢竟看病過程中,病人總是希望得到醫(yī)生心理上的安慰與同情。
?以ChatGPT為代表的大模型對人工智能核心競爭力的形成具有決定性作用。未來5年到10年,我們必須在戰(zhàn)略上充分重視大模型技術(shù)的發(fā)展,但是要注意保持冷靜心態(tài),不要盲目樂觀。
(資料圖片僅供參考)
ChatGPT,全名為“Chat Generative Pre-Trained Transformer”,其中,GPT(Generative Pre-training Transformer)譯成中文為“預(yù)訓(xùn)練生成模型”,它是一款由美國人工智能研究機(jī)構(gòu)OpenAI研發(fā)的對話式大型語言模型。
自2022年11月30日發(fā)布以來,至2023年1月末,ChatGPT的全球活躍用戶已達(dá)1億,成為史上用戶增長速度最快的消費(fèi)級應(yīng)用程序。
硅谷科技公司PerceptIn創(chuàng)始人劉少山在接受《中國新聞周刊》采訪時(shí)表示,ChatGPT有更好的語言理解能力,它可以更像一個(gè)通用的任務(wù)助理,能夠和不同行業(yè)結(jié)合,衍生出很多應(yīng)用場景。
在醫(yī)療領(lǐng)域,已經(jīng)有很多學(xué)者開始探索ChatGPT的邊界。ChatGPT還在一項(xiàng)研究中通過了美國執(zhí)業(yè)醫(yī)師資格考試(USMLE)。還有學(xué)者利用ChatGPT進(jìn)行心血管疾病、阿爾茲海默病等疾病的診療。
在醫(yī)療領(lǐng)域,ChatGPT究竟有多大的潛力,它還存在什么局限,將會(huì)有怎樣的升級?2月9日,澎湃科技連線復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院肖仰華教授,和他聊了聊ChatGPT在醫(yī)療領(lǐng)域的可能性和存在的問題。
在肖仰華看來,單純從醫(yī)療領(lǐng)域來聊ChatGPT,是把主題聊“小”了,他認(rèn)為,對ChatGPT的討論,格局可以更大。但肖仰華還是很耐心地回答了澎湃科技提出的問題。
肖仰華告訴澎湃科技,ChatGPT已經(jīng)遠(yuǎn)遠(yuǎn)超出以前人工智能的水平,可能對行業(yè)產(chǎn)生深刻影響。目前在醫(yī)療領(lǐng)域,ChatGPT可以較好地完成助理類的工作,比如導(dǎo)診,輔助醫(yī)生自動(dòng)生成病例或摘要,進(jìn)行醫(yī)療健康咨詢等。“在很多方面,ChatGPT可以極大地提質(zhì)提效??梢灶A(yù)見,醫(yī)生的時(shí)間和精力可以在ChatGPT類似產(chǎn)品的協(xié)助下得到極大解放?!毙ぱ鋈A說。
目前來看,ChatGPT所生成的內(nèi)容較為基礎(chǔ)、泛化,在提供專業(yè)的醫(yī)學(xué)服務(wù)上面臨挑戰(zhàn)。肖仰華表示,“從具體實(shí)現(xiàn)技術(shù)路線上來講,ChatGPT面向領(lǐng)域的優(yōu)化路線已經(jīng)十分清晰,不存在太大的障礙。只要將醫(yī)療數(shù)據(jù)與醫(yī)療知識庫準(zhǔn)備好,進(jìn)行體現(xiàn)領(lǐng)域特點(diǎn)的持續(xù)訓(xùn)練,大模型很快就會(huì)學(xué)到更多醫(yī)療領(lǐng)域的專門知識。不過,領(lǐng)域數(shù)據(jù)如何有效治理、領(lǐng)域知識如何植入、領(lǐng)域大模型如何廉價(jià)訓(xùn)練仍有較大研究空間。此外,醫(yī)療數(shù)據(jù)比較敏感,涉及用戶隱私,是個(gè)不可回避的問題?!?/p>
“在醫(yī)療領(lǐng)域應(yīng)用ChatGPT需要慎重,醫(yī)療對信息準(zhǔn)確性、安全性和用戶隱私、人文關(guān)懷、醫(yī)學(xué)倫理等要求比較高,學(xué)界和業(yè)界可能還要花一段時(shí)間去探索如何去規(guī)避道德與倫理風(fēng)險(xiǎn),才有可能讓ChatGPT在醫(yī)療中發(fā)揮積極作用?!毙ぱ鋈A說。
肖仰華還提醒道,ChantGPT最近在學(xué)術(shù)界帶來的樂觀多來自谷歌等學(xué)者在《Emergent Abilities of Large Language Models》(2022年6月)中的觀點(diǎn),然而必須要謹(jǐn)慎論證大模型由于規(guī)模效應(yīng)所帶來的涌現(xiàn)行為。涌現(xiàn)出了怎樣的智能?如何可信論證各種涌現(xiàn)?這里雖然采取了“智能涌現(xiàn)”的說法,但是大模型的涌現(xiàn)行為仍然需要深入細(xì)致的論證?!拔以诖颂嵝炎x者 ,不要盲從。”
【對話】
ChatGPT可勝任助理類工作,應(yīng)用于醫(yī)療需慎重
澎湃科技
:ChatGPT在醫(yī)療領(lǐng)域可能有哪些應(yīng)用?
肖仰華(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授)
:ChatGPT是一個(gè)面向自然語言問答的生成式大規(guī)模預(yù)訓(xùn)練語言模型。從它的核心能力來講,它具備對文本的理解能力,也具備對用戶問題的理解能力,所以它可以提供比較精準(zhǔn)的問答服務(wù),同時(shí)還具有較為強(qiáng)大的文本生成能力?;谶@些能力,它可以賦能多種多樣的應(yīng)用場景,因此具有平臺化的能力和產(chǎn)業(yè)化的應(yīng)用前景。這一次推出的是面向聊天任務(wù)的GPT,即Chat版本的GPT,將來可能會(huì)有很多其他任務(wù)形態(tài)的GPT,比如醫(yī)療場景中的診斷GPT。
很多年前產(chǎn)業(yè)界就設(shè)想過聊天助手的應(yīng)用形式,但當(dāng)時(shí)在技術(shù)上有很多瓶頸,到今天,ChatGPT的語言理解能力和交互能力顯著提升,可以更為流暢地、智能地完成很多助理類的工作。比如,我們到醫(yī)院的第一件事情是導(dǎo)診,根據(jù)你的癥狀和描述,ChatGPT可以知道你適合哪個(gè)科室。ChatGPT還可以成為醫(yī)學(xué)專家助理,幫助專家去找一些文獻(xiàn),也可以根據(jù)病情以及問診記錄自動(dòng)生成病例或摘要。慢病管理、醫(yī)療健康咨詢類的職業(yè)也有可能被ChatGPT之類的產(chǎn)品所取代,比如它通過問答形式回答用戶對于用藥限制、注意事項(xiàng)的問題。ChatGPT對藥品行業(yè)的智慧研發(fā)也有很大幫助,比如它可以跟蹤某種藥品在國外最近的專利,將某方面的科技情報(bào)形成一個(gè)概要描述。在這些方面,ChatGPT可以極大地提質(zhì)提效。
隨著它的能力越來越強(qiáng),我相信它未來也可能會(huì)具有超越助理類工作的能力,非專家水平的醫(yī)生,也就是普通醫(yī)生的工作,比如通過問答交互形式,完成常規(guī)疾病的診斷或醫(yī)療建議,對類似疾病過往案例的搜索與推薦,在大模型的加持下都將離落地應(yīng)用越來越近,可以預(yù)見,醫(yī)生的時(shí)間和精力可以在ChatGPT類似產(chǎn)品的協(xié)助下得到極大的解放。從此意義來看,它對緩解優(yōu)質(zhì)醫(yī)療資源分布不平衡問題有著積極意義。
但是在醫(yī)療領(lǐng)域應(yīng)用ChatGPT需要慎重,因?yàn)獒t(yī)療對信息準(zhǔn)確性、安全性和用戶隱私、人文關(guān)懷、醫(yī)學(xué)倫理等要求比較高,學(xué)界和業(yè)界可能還要花一段時(shí)間去探索如何去規(guī)避道德與倫理風(fēng)險(xiǎn),才有可能讓ChatGPT在醫(yī)療中發(fā)揮積極作用。
澎湃科技
:有很多人問ChatGPT各種各樣的醫(yī)學(xué)知識,它給的回答基本上是概要的基礎(chǔ)知識。
肖仰華
:這涉及到ChatGPT技術(shù)的目標(biāo)應(yīng)用場景問題,我們需要考慮它是應(yīng)用于通用領(lǐng)域還是特定垂直領(lǐng)域。ChatGPT的第一波應(yīng)用場景是像微軟這樣的一些通用平臺,它提供的是Bing通用搜索,或者Office等通用辦公軟件,總體而言專業(yè)性不高。
在通用場景,ChatGPT的表現(xiàn)已經(jīng)相當(dāng)不錯(cuò),但是若將其應(yīng)用在垂直領(lǐng)域,尤其是醫(yī)療這類對知識的專業(yè)性和深度要求比較高的領(lǐng)域,則需要進(jìn)一步向ChatGPT注入醫(yī)療數(shù)據(jù)、領(lǐng)域知識乃至專家經(jīng)驗(yàn),對ChatGPT進(jìn)行針對性的訓(xùn)練與優(yōu)化。大家對當(dāng)前版本的ChatGPT作了很多嘗試,發(fā)現(xiàn)它犯了很多事實(shí)錯(cuò)誤與邏輯錯(cuò)誤,比如它會(huì)認(rèn)為人類有兩個(gè)心臟。其原因在于通用語料里,醫(yī)學(xué)類知識很少,它沒有看過,自然沒有機(jī)會(huì)接受醫(yī)療領(lǐng)域數(shù)據(jù)的專門訓(xùn)練。其他領(lǐng)域應(yīng)用也是同理。
從具體實(shí)現(xiàn)技術(shù)路線上來講,這種面向領(lǐng)域的優(yōu)化路線已經(jīng)十分清晰,不存在太大的障礙。只要將醫(yī)療數(shù)據(jù)與醫(yī)療知識庫準(zhǔn)備好,進(jìn)行體現(xiàn)領(lǐng)域特點(diǎn)的持續(xù)訓(xùn)練,大模型很快就會(huì)學(xué)得更多醫(yī)療領(lǐng)域的專門知識。不過,領(lǐng)域數(shù)據(jù)如何有效治理、領(lǐng)域知識如何植入、領(lǐng)域大模型如何廉價(jià)訓(xùn)練也仍有較大研究空間。此外,醫(yī)療數(shù)據(jù)比較敏感,涉及用戶隱私,是個(gè)不可回避的問題。
澎湃科技
:提到醫(yī)療咨詢,我作為患者,最關(guān)心的是它是否真的靠譜。
肖仰華
:這種擔(dān)憂不無道理。讓通用版的ChatGPT變成一個(gè)專業(yè)醫(yī)療版的ChatGPT,還是有不少問題要解決的。首先,就是剛才提到的醫(yī)療知識有限,仍需極大的注入領(lǐng)域知識的努力。過去十多年來,醫(yī)療領(lǐng)域已經(jīng)建立了很多大規(guī)模的醫(yī)療、疾病、醫(yī)藥與健康知識庫,某種程度上,為今天向ChatGPT這樣的大模型灌注領(lǐng)域知識做好了充分準(zhǔn)備。但是單單富有知識還不足以勝任為人類的醫(yī)生。
大模型本質(zhì)上是一種統(tǒng)計(jì)模型。任何統(tǒng)計(jì)模型都有出錯(cuò)的概率。但在醫(yī)療領(lǐng)域,即便是以極低概率犯了錯(cuò),也是難以接受的,一次重大醫(yī)療事故就足以毀掉病人的家庭和醫(yī)生的職業(yè)生涯。因此,仍需要發(fā)展大模型的兜底方案,特別是人機(jī)結(jié)合的綜合方案,在發(fā)揮大模型在自動(dòng)化診斷方面的高效率的同時(shí),由人類專家對于極低概率的錯(cuò)誤進(jìn)行審核與糾正。
另一種擔(dān)憂在于大模型的可解釋性。通常,病人看醫(yī)生不單單需要一個(gè)診斷結(jié)果,更需要對診斷的詳細(xì)解釋。作為統(tǒng)計(jì)模型的大模型擅長做出結(jié)果判斷,在過程解釋上仍然需要付諸較大努力。不過ChatGPT在思維鏈(Chain of thought)等技術(shù)的助力下,在結(jié)果解釋方面已經(jīng)有了極大提升。
大模型作為機(jī)器醫(yī)生與人類交互,還需要解決與人類共情的難題。畢竟看病過程中,病人總是希望得到醫(yī)生心理上的安慰與同情。這些都是以ChatGPT為基礎(chǔ)的智能醫(yī)療應(yīng)用場景需要深入考慮的問題。
澎湃科技
:這樣看來,人類灌輸給它的知識很關(guān)鍵,這會(huì)不會(huì)導(dǎo)致公平性的問題?
肖仰華
:大模型的公平性問題包含多個(gè)方面。首先是來自訓(xùn)練數(shù)據(jù)分布不均所帶來的結(jié)果偏見問題。大模型的學(xué)習(xí)語料往往存在較為嚴(yán)重的分布偏差,比如近三年提到傳染病,一定就是新冠,但事實(shí)上傳染病絕不僅僅這一種,只不過由于近三年新冠暴發(fā),絕大多數(shù)媒體數(shù)據(jù)提到的傳染病都是新冠。這樣一種具有“暴露偏差”的數(shù)據(jù)“喂”給大模型之后,會(huì)誤導(dǎo)大模型認(rèn)為傳染病就是新冠,從而在被提問艾滋病之類的傳染病時(shí),ChatGPT也會(huì)匹配到新冠相關(guān)的答案。
公眾所關(guān)心的公平性,往往涉及技術(shù)的民主性問題,也就是擁有技術(shù)的人群,因?yàn)槟苁芤嬗?AI,比沒有技術(shù)能力人群,具有競爭優(yōu)勢,從而導(dǎo)致機(jī)會(huì)不公,有失民主。某種意義上,能夠操控AI技術(shù)的人在淘汰不能操控AI技術(shù)的人,是一件已經(jīng)在發(fā)生的事實(shí),是個(gè)我們必須正視且盡快回應(yīng)的問題。這是技術(shù)倫理研究者密切關(guān)注的問題,相信他們會(huì)在未來給出完美方案。
澎湃科技
:發(fā)達(dá)地區(qū)在人才和技術(shù)上都更有優(yōu)勢,可能也會(huì)輸入更多醫(yī)療數(shù)據(jù),欠發(fā)達(dá)地區(qū)應(yīng)用ChatGPT的時(shí)候,是不是就會(huì)缺少一些代表性?
肖仰華
:是的。大模型建立的前提是數(shù)據(jù),數(shù)據(jù)資源越豐富、數(shù)據(jù)分布越均衡、數(shù)據(jù)質(zhì)量越精良,數(shù)據(jù)治理能力越強(qiáng),大模型能力越出眾。某種意義上,大模型是機(jī)構(gòu)乃至國家人工智能核心競爭力的集中體現(xiàn),是檢驗(yàn)其數(shù)據(jù)治理、模型研發(fā)、工程實(shí)現(xiàn)等能力的重要場景。這實(shí)際上跟一個(gè)國家和地區(qū)的信息化、數(shù)字化與人工智能技術(shù)發(fā)展水平密切有關(guān)。如果國家和地區(qū)都還沒有發(fā)展到相應(yīng)的階段,甚至連必要的數(shù)據(jù)基礎(chǔ)都不具備,那么大模型就很難體現(xiàn)這個(gè)國家或地區(qū)的人群疾病的相關(guān)特點(diǎn)。
好在病理和藥理是整個(gè)人類適用的,大模型不會(huì)因?yàn)槿巳翰煌?xí)得不同的病理與藥理。但是對于健康管理與公共衛(wèi)生等與生活環(huán)境密切相關(guān)的醫(yī)療問題而言,大模型因?yàn)榈貐^(qū)發(fā)展水平差異而呈現(xiàn)出的能力差異,是無法回避的問題。我國總體而言,醫(yī)療數(shù)字化發(fā)展基礎(chǔ)較好,但是也要充分關(guān)注各地區(qū)間醫(yī)療數(shù)字化發(fā)展不平衡問題。
防止ChatGPT一本正經(jīng)地胡說八道
澎湃科技
:醫(yī)療行業(yè)在使用 ChatGPT的時(shí)候,有沒有一些需要注意的問題?
肖仰華:首先,需要持續(xù)關(guān)注ChatGPT在醫(yī)療領(lǐng)域的泛化能力。所謂泛化能力,是指統(tǒng)計(jì)模型不出現(xiàn)在訓(xùn)練數(shù)據(jù)中的樣本上,仍然能夠做出準(zhǔn)確預(yù)測的能力。通俗來說,就是舉一反三的能力。我們?nèi)祟愂侵悄艿模械捏w現(xiàn)就是對少量樣本進(jìn)行學(xué)習(xí)之后,我們能在未來未見過的類似樣本中做出準(zhǔn)確判斷或者響應(yīng)。
大模型本質(zhì)是一個(gè)統(tǒng)計(jì)模型,它能在輸入和輸出之間建立起很強(qiáng)的統(tǒng)計(jì)關(guān)聯(lián),它就是通過這種統(tǒng)計(jì)關(guān)聯(lián)來解決問題的。當(dāng)你輸入一個(gè)問題,它看到這個(gè)問題中某些詞或者某些詞的語義,發(fā)現(xiàn)和它以前看過的文本中一些詞的統(tǒng)計(jì)關(guān)聯(lián)特別強(qiáng),它就可以產(chǎn)生相應(yīng)文本作為答案。那么這種能力能否持續(xù)遷移到?jīng)]見過的問題呢?往往會(huì)有困難。ChatGPT之所以能夠成功,一個(gè)重要原因就是其基礎(chǔ)模型GPT-3系列模型在精心與充分的訓(xùn)練下,涌現(xiàn)出了高度泛化的語言理解能力。這種能力能否持續(xù)遷移到特定領(lǐng)域,如何在不遺忘通用語言的能力同時(shí),合理適配醫(yī)療領(lǐng)域,仍然有待技術(shù)檢驗(yàn)。
其次,要密切關(guān)注ChatGPT的事實(shí)錯(cuò)誤、邏輯錯(cuò)誤等問題。ChatGPT目前經(jīng)常出的問題就是一本正經(jīng)地胡說八道。比如問某個(gè)歷史人物的生辰信息,ChatGPT很難給出精準(zhǔn)答案。在ChatGPT一本正經(jīng)回復(fù)里,往往存在前后不一致的情況。作為一種神經(jīng)模型,ChatGPT接受某個(gè)輸入問題時(shí),所激發(fā)的神經(jīng)網(wǎng)絡(luò)運(yùn)算模式,非常接近人腦接受文字或語音輸入后大腦神經(jīng)元的激活與放電模式。客觀評價(jià),這是個(gè)了不起的進(jìn)步。但是,人類智能的進(jìn)化畢竟經(jīng)歷了漫長的歲月洗禮。ChatGPT所激發(fā)的內(nèi)容在精準(zhǔn)度與邏輯合理性等方面仍有差距。事實(shí)上,人類慢條斯理的邏輯推理過程,如何通過神經(jīng)網(wǎng)絡(luò)有效實(shí)現(xiàn),仍然是個(gè)難題。
事實(shí)錯(cuò)誤本質(zhì)上歸結(jié)于知識缺失。前面已經(jīng)談到,未來優(yōu)化ChatGPT的重要思路之一就是知識植入,特別是領(lǐng)域(專業(yè))知識,從而緩解事實(shí)錯(cuò)誤。邏輯錯(cuò)誤包括命題邏輯、數(shù)理邏輯、計(jì)算邏輯等錯(cuò)誤。這里不一一展開。作為一個(gè)生成模型,如何能在統(tǒng)計(jì)生成過程中規(guī)避邏輯錯(cuò)誤,仍然是個(gè)非?;钴S的研究領(lǐng)域??傮w而言,需要研究與發(fā)展模擬人類大腦雙系統(tǒng)認(rèn)知結(jié)構(gòu)的認(rèn)知智能技術(shù),才有可能緩解這一問題。這或許是ChatGPT的后來者能否居上的關(guān)鍵所在。
第三,它還存在跟人類價(jià)值觀對齊的問題。比如喝酒是否有益健康,不同的專家有不同的觀點(diǎn),那么大模型到底是應(yīng)該支持哪一派的觀點(diǎn)呢?再比如對于安樂死,ChatGPT應(yīng)該持什么態(tài)度?在醫(yī)學(xué)倫理的一些邊緣和模糊的地帶,大模型應(yīng)該和哪一種價(jià)值觀對齊,這是一個(gè)難以回避的問題。
第四,是用戶隱私的問題。ChatGPT需要從海量數(shù)據(jù)進(jìn)行學(xué)習(xí),其生成的內(nèi)容可能來自于某一個(gè)人的隱私內(nèi)容。在回答問題的過程中,有沒有可能暴露特定個(gè)人或人群的某些隱私,會(huì)暴露多少?是否存在著某些漏洞,使得通過特定的提示能夠誘導(dǎo)出敏感內(nèi)容?對于這個(gè)問題,我們現(xiàn)在還不清楚。但是,就像當(dāng)年的大數(shù)據(jù)應(yīng)用無意中侵犯了人類隱私一樣,我們必須十分警惕大模型應(yīng)用中侵犯人們的隱私,甚至暴露國家敏感信息。
最后,還要提一下大模型的遺忘能力問題。讓大模型記住一件事情是容易的,但是讓它忘記一件事情很困難。因?yàn)樗挠洃浭峭ㄟ^神經(jīng)網(wǎng)絡(luò)的分布式存儲。某個(gè)事實(shí)一經(jīng)存儲,就會(huì)分布式地嵌入它的“神經(jīng)網(wǎng)絡(luò)”中,我們甚至難以追蹤相應(yīng)的負(fù)責(zé)記憶該事實(shí)的神經(jīng)元。所以某種程度上,大模型一旦訓(xùn)練完成,消除特定事實(shí)就會(huì)相對困難。當(dāng)然一種直接的方法是從語料中清除特定事實(shí),但這種做法會(huì)帶來大模型高昂的訓(xùn)練成本。
我們?yōu)槭裁醋尨竽P蛯W(xué)會(huì)遺忘呢?因?yàn)槿祟惿鐣?huì)總有些敏感的事實(shí),只有徹底遺忘才能不犯禁忌,這是人類文化的一種典型現(xiàn)象。大模型要想為人類服務(wù),遲早要學(xué)會(huì)這種能力。大模型的遺忘問題再進(jìn)一步拓展,還涉及大模型的事實(shí)可控編輯問題、大模型的知識更新問題,已經(jīng)屬于人工智能博士生需要研究的問題,再次不再贅述。
需要指出的是,ChatGPT的上述種種問題,并不妨礙其大規(guī)模商業(yè)應(yīng)用。幾乎沒有哪種技術(shù)要等到100%完美才能大規(guī)模應(yīng)用。事實(shí)上,很多產(chǎn)品在設(shè)計(jì)思路、工程中的人機(jī)結(jié)合方案,可以有效規(guī)避或者彌補(bǔ)上述問題。比如,可以對應(yīng)用場景進(jìn)行區(qū)分,在非嚴(yán)肅場景,自動(dòng)生成偶爾犯錯(cuò)的文本,再經(jīng)人類修正,已經(jīng)能極大提升人類工作效率。
技術(shù)突破路線與反思
澎湃科技
:技術(shù)上可以怎么樣進(jìn)行突破?
肖仰華
:第一,應(yīng)用絡(luò)線的融合。我估計(jì)ChatGPT在搜索引擎應(yīng)用時(shí),很快就會(huì)結(jié)合檢索模型。信息檢索技術(shù)仍是當(dāng)前搜索引擎的核心,幫我們解決了從海量數(shù)據(jù)中精準(zhǔn)檢索相關(guān)事實(shí)的問題?!袄侠蠈?shí)實(shí)”的檢索恰好可以彌補(bǔ)“隨性而為”的生成模型的缺陷,從而更好地為人類用戶服務(wù)。
第二,大模型的數(shù)據(jù)治理工作。不管是通用數(shù)據(jù)還是垂直領(lǐng)域的數(shù)據(jù),其實(shí)大模型最終質(zhì)量效果取決于“喂”進(jìn)去的數(shù)據(jù)本身質(zhì)量高不高,規(guī)模大不大。具體來說要做很多事,比如樣本糾偏、噪音清洗、價(jià)值對齊、多模融合、領(lǐng)域適配等等。
第三,大模型的可控編輯。我們能不能像操作一個(gè)數(shù)據(jù)庫一樣,讓它可以記住、刪除和更新特定事實(shí)?領(lǐng)域知識如何有效植入?都是需要進(jìn)一步深入研究的問題。
還有一個(gè)很重要的問題是算力的問題,因?yàn)榇竽P统杀咎貏e高,如果把大模型往各行各業(yè)推廣的話,這會(huì)是一個(gè)很重要的瓶頸。不能每次跑一遍模型,都花幾百萬美金,沒有幾個(gè)機(jī)構(gòu)能承受得起。如何實(shí)現(xiàn)廉價(jià)的大模型訓(xùn)練與部署?也是個(gè)需要深入研究的問題。事實(shí)上,高質(zhì)量數(shù)據(jù)、豐富知識以及精心設(shè)計(jì)的訓(xùn)練任務(wù)很可能極大地降低大模型智能涌現(xiàn)的門檻,這是個(gè)極為重要研究思路。大模型的智能涌現(xiàn)十分接近宗教信仰中的頓悟與科學(xué)研究中的靈感,這兩類認(rèn)知現(xiàn)象對于大模型的智能涌現(xiàn)現(xiàn)象研究或許有著極大的啟發(fā)意義。
澎湃科技
:很多人和ChatGPT聊過天之后,覺得它沒有想象中那么智能,沒有連貫的語境,會(huì)犯事實(shí)性的錯(cuò)誤,那為什么要這么關(guān)注它?
肖仰華
:它現(xiàn)在是有一些弊端,但其實(shí)人也會(huì)犯錯(cuò)誤。ChatGPT已經(jīng)遠(yuǎn)遠(yuǎn)超出了以前的人工智能的水平。問答系統(tǒng)在前幾年就已經(jīng)落地在很多產(chǎn)品中,比如國內(nèi)廠商推出的帶問答功能的音響、玩具。但是,用戶很快就會(huì)發(fā)現(xiàn),幾個(gè)回合的問答交互后,它們很容易就答不出來,或者答非所問,你就會(huì)覺得它是“人工智障”。比如你問劉德華生日,它回答香港,那么很多用戶就會(huì)果斷棄用。ChatGPT仍會(huì)犯事實(shí)性的錯(cuò)誤,但是基本不會(huì)偏移提問的主題,“智障”感因此極大降低。
另一方面,ChatGPT經(jīng)過人類專家的精心調(diào)教,掌握了人類常見問題的回答策略,其回答問題的策略與結(jié)構(gòu)達(dá)到人類專家水平。比如,你問他人工智能是否會(huì)超越人類水平。它在回答是有結(jié)構(gòu)的,會(huì)先給出結(jié)論,再逐條列出理由,這是專業(yè)水平的答題,我們很多學(xué)生回答問題都未必如此有條理。而且它具有一定的自知之明和一定的反思能力。如果它認(rèn)為你提的問題不合理,它就拒絕回答,如果你說它錯(cuò)了,它會(huì)反思自己哪里錯(cuò)了。兩三年前,我在《機(jī)器能否認(rèn)知世界》等報(bào)告中展望過,“問答系統(tǒng)要向具有人類高級認(rèn)知水平的智能系統(tǒng)演進(jìn),要具備自知之明、要具備拒絕回答不合理問題的能力、要與人類價(jià)值觀對齊等”的目標(biāo),在當(dāng)時(shí)被認(rèn)為過于理想而不切實(shí)際,卻已經(jīng)悄然在ChatGPT上實(shí)現(xiàn)。
最后, ChatGPT這類大模型作為人工智能基礎(chǔ)實(shí)施的效應(yīng)十分顯著。也就是說,大模型有望像電網(wǎng)、電信網(wǎng)絡(luò)一樣,用戶或者終端一接入,即可享受智能?;A(chǔ)設(shè)施十分容易形成壟斷地位。在人工智能產(chǎn)業(yè)化過程中,往往只有第一,沒有第二。從這些意義來看,以ChatGPT為代表的大模型對人工智能核心競爭力的形成具有決定性作用,對于人工智能產(chǎn)業(yè)形態(tài)的塑造具有重要作用。其所帶來一系列連鎖反應(yīng)將逐步滲透到社會(huì)發(fā)展的各行各業(yè)。以ChatGPT為代表的具備智能涌現(xiàn)能力的大模型,是人工智能發(fā)展的一個(gè)重要里程碑,是信息技術(shù)變革人類社會(huì)的一個(gè)重大事件。
在即將結(jié)束時(shí),我想補(bǔ)充一下我們應(yīng)該保持一種怎樣的態(tài)度對待ChatGPT的發(fā)展?為什么要談這個(gè)問題,最近一兩個(gè)月的媒體,無異于發(fā)生了一場8級地震。企業(yè)家、專家、媒體、技術(shù)、資本、各行各業(yè)均對ChatGPT這一變革性技術(shù)從各種角度進(jìn)行了解讀,可謂熱鬧非凡。我想借用比爾?蓋茨曾經(jīng)說過的話回應(yīng)這一問題:“我們總是高估短期的變化,卻低估中長期的變革?!?/p>
從短期看,也就是未來5年到10年,我們必須在戰(zhàn)略上充分重視大模型技術(shù)的發(fā)展,但是要注意保持冷靜心態(tài),不要盲目樂觀。從事人工智能研究技術(shù)人員往往盲目樂觀,認(rèn)為很快大模型能做很多事,甚至代替人類從事科學(xué)發(fā)現(xiàn);與之形成鮮明對比,恰是不從事人工智能研究的外行的盲目悲觀,認(rèn)為大模型很快就要取代他們的工作。這兩種心態(tài)有著本質(zhì)上相同的原因。事實(shí)上,以大模型為代表的人工智能進(jìn)展,很多時(shí)候不是在證明機(jī)器有多智能,而是在間接證明人類社會(huì)當(dāng)前的很多行為設(shè)計(jì)有多愚蠢,比如教育中的各種考試、各種“復(fù)制+修改”就能勝任的文案工作。比如,最近很多機(jī)構(gòu)利用ChatGPT先后在各種專業(yè)資格考試中獲得了通過,這誠然是技術(shù)進(jìn)步的一種體現(xiàn)。受益于大模型的思維鏈等技術(shù),大模型的推理能力得到極大提升,因而在考試這類需要一定推理能力的任務(wù)中取得進(jìn)展。然而這種推理能力仍然十分有限的,至少離人類專家的直覺推理水平仍有遙遠(yuǎn)距離。更為諷刺地是,這個(gè)進(jìn)展證明我們的評測方式偏離了教育的初衷?!八烙浻脖?有限推理”,似乎就可以勝任當(dāng)下大多數(shù)考試。與其贊嘆大模型的進(jìn)展,不如更深刻地反思人類社會(huì)自身發(fā)展過程中的諸多問題。以創(chuàng)新為根本目的的教育,是當(dāng)前這種評測方式真能準(zhǔn)確評價(jià)的嗎?我們應(yīng)該充分抓住人工智能發(fā)展契機(jī),對人類社會(huì)的諸多設(shè)計(jì)進(jìn)行深刻反思,促進(jìn)教育等行業(yè)的高質(zhì)量發(fā)展。
從長期來看,也就是未來20年,甚至50年,我們必須在戰(zhàn)略上警醒人工智能對于人類社會(huì)發(fā)展的影響,并對其開展細(xì)致的深入的研究,而不是在人工智能遭遇了人類的調(diào)戲后輕蔑地下一個(gè)“不過如此”的結(jié)論。人工智能發(fā)展已經(jīng)不是第一次在挑戰(zhàn)人性的底線了。不管是人類的動(dòng)物性與社會(huì)性,都在持續(xù)地被機(jī)器所模擬、所實(shí)現(xiàn),從計(jì)算到游戲,從聽音識圖到能說會(huì)道,從寫詩到作畫。最近的認(rèn)知智能研究,仍在持續(xù)將人類的高級認(rèn)知能力,比如幽默認(rèn)知、情感認(rèn)知、社會(huì)認(rèn)知賦予機(jī)器。那么到底什么是人性不容侵犯的領(lǐng)地呢?抑或真像某些哲學(xué)家認(rèn)為的“人是機(jī)器”?宗教認(rèn)為人類的本性是“自我超越”,然而,即便這個(gè)最根本特性似乎也會(huì)受到機(jī)器智能的挑戰(zhàn)。這些問題的深入討論,要比“機(jī)器是否消滅人類”的空洞唱和,有意義得多。
關(guān)鍵詞: 追問|停止對ChatGPT的空洞唱和 不如反思人類社會(huì)的諸多設(shè)計(jì) 人工智能