【編者按:人類從最初的智人時(shí)代,一直發(fā)展到今天,各種各樣的工具為我們提供便利,未來,是否會(huì)有更加簡單方便的工具在我們的生活工作中提供幫助。ChatGPT發(fā)布之前幾個(gè)月,Salesforce 的執(zhí)行副總裁和首席科學(xué)家Silvio Savarese 就曾發(fā)表了一篇富有遠(yuǎn)見的博客“If You Can Say It, You Can Do It: The Age of Conversational AI(如果你能說,你就能做到:對(duì)話式人工智能時(shí)代)”。在此文章發(fā)布之后不久,ChatGPT 橫空出世,很快讓人們體會(huì)到其強(qiáng)大知識(shí)整合和內(nèi)容生成能力,特別是憑借其基于自然語言的對(duì)話式用戶接口也使得 ChatGPT 有可能成為容易獲得各種資源和執(zhí)行各種任務(wù)的通用平臺(tái)。我們特將該內(nèi)容編譯出來和各位客戶、合作伙伴朋友分享。如需轉(zhuǎn)載,請聯(lián)系我們(ID:15937102830)】
想象一下,您發(fā)現(xiàn)自己置身于下一代航天器的駕駛艙內(nèi)——這種航天器可以毫不費(fèi)力地將您從近地軌道帶到柯伊伯帶。你設(shè)想如何控制它?科幻小說使我們習(xí)慣于將未來技術(shù)等同于令人眼花繚亂的復(fù)雜性,因此您可能會(huì)想象一排排閃爍的燈光、閃亮的按鈕,以及充滿發(fā)光數(shù)字和起伏正弦曲線的屏幕。它肯定看起來令人印象深刻。但這真的是先進(jìn)技術(shù)的標(biāo)志嗎?
展望未來的一種方式:更加復(fù)雜
(相關(guān)資料圖)
相反,想象一個(gè)幾乎是空的駕駛艙,用一面墻的控制換取令人驚嘆的全景視野。你坐在船長的椅子上,欣賞一會(huì)兒風(fēng)景,然后大聲說:“帶我去土星!”沒有按鈕,沒有開關(guān),沒有計(jì)算軌跡。您甚至不需要一些特殊的代碼或語法。只是您每天使用的自然語言。
另一種愿景:更簡單
進(jìn)一步想象一下,這艘船會(huì)立即以自己的聲音做出同樣的回應(yīng)?!澳康牡卦O(shè)定為土星,”它說,它的音調(diào)隨著栩栩如生的變化而起伏?!澳阆胍羁斓穆肪€嗎?或者,我們可以利用附近物體的引力來減少燃料消耗,但行程會(huì)慢 17%。而且總是有風(fēng)景優(yōu)美的路線。這是最長且效率最低的,但我們會(huì)清楚地看到斯蒂克尼隕石坑——火衛(wèi)一上最大的隕石坑——并飛過木星的大紅斑!”
在考慮了你的選擇之后,你的回應(yīng)就像你最初的命令一樣毫不費(fèi)力,用同樣簡單的方式說出來?!拔蚁胛視?huì)選擇風(fēng)景優(yōu)美的路線?!保ㄖ灰覀冊谙胂?,我們不妨從中獲得樂趣。)就是這樣。你作為船長的職責(zé)已經(jīng)完成。
“風(fēng)景路線確認(rèn),”船回復(fù)道:“系好安全帶!”
01
我們與工具的關(guān)系簡介
無論你怎么看,由自然語言操作的航天器都是一件大事,但考慮到我們作為工具制造者的歷史,這是一個(gè)特別雄心勃勃的夢想——這個(gè)夢想可以追溯到很久以前,我們智人實(shí)際上從我們的前輩那里繼承了這個(gè)概念。來自大約 260 萬年前被稱為舊石器時(shí)代晚期的時(shí)期的證據(jù)表明,早期人類天生喜歡砸石頭,直到它們破裂,將碳?jí)K變成鋒利的切割工具。這是考古學(xué)家稱之為“第一種模式 ”的石器人工制品:手持式、數(shù)量豐富且適用于廣泛的任務(wù)。從本質(zhì)上講,這是地球上的第一項(xiàng)技術(shù)。
從那以后的幾千年里,我們一直是一個(gè)忙碌的物種,以無數(shù)種方式在人工幫助下擴(kuò)展我們的自然能力。例如,Mode I rock是石器悠久世系中的第一個(gè),但最終讓位給了我們今天所知道的復(fù)雜的后繼者。然而,讓這段歷史特別有趣的是,我們的工具不僅在功能和范圍上都在增長——它們也變得更容易使用。
誠然,一塊石頭一開始并不十分復(fù)雜,但現(xiàn)代刀對(duì)用戶更加友好——不僅因?yàn)樗牡镀h利,還因?yàn)樗鋫淞艘粋€(gè)手柄,可以提高杠桿作用和安全性。汽車也是如此,它們優(yōu)先考慮速度和續(xù)航里程的進(jìn)步,以及人體工程學(xué)和駕駛員舒適度。甚至計(jì)時(shí)也從沙子、水和齒輪(以及隨之而來的所有令人頭疼的問題)組成的機(jī)制發(fā)展到無需維護(hù)即可提供毫秒精度的數(shù)字手表。
這些示例中的每一個(gè)都證明了一個(gè)深刻的想法:最好的工具不僅功能強(qiáng)大且易于使用,而是因?yàn)樗鼈円子谑褂枚δ軓?qiáng)大。
"最好的工具不僅功能強(qiáng)大且易于使用,而是因?yàn)樗鼈円子谑褂枚鴱?qiáng)大?!?/strong>
但故事并沒有就此結(jié)束。隨著信息時(shí)代在 20 世紀(jì)初具規(guī)模,出現(xiàn)了一種全新的工具類別,它們利用了計(jì)算和符號(hào)數(shù)據(jù)處理操作等抽象功能。在短短幾十年的時(shí)間里,數(shù)字技術(shù)改變了世界,就像之前幾千年的任何事情一樣,戲劇性地改變了世界,實(shí)現(xiàn)了甚至對(duì)我們最近的祖先來說都顯得不可思議的能力。然而,這些進(jìn)步是有代價(jià)的:今天,我們的工具對(duì)我們的要求從未如此高。
02
一個(gè)越來越復(fù)雜的世界
我們與技術(shù)的關(guān)系發(fā)生了多么徹底的變化,以平面設(shè)計(jì)的演變?yōu)槔?。像大多?shù)藝術(shù)形式一樣,它在其歷史的大部分時(shí)間里都是純粹的模擬實(shí)踐;做好工作所需的才能可能需要數(shù)年才能培養(yǎng),但用來表達(dá)這種才能的工具是觸覺和直覺的。設(shè)計(jì)師們大量使用鉛筆、鋼筆、刀具、粘合劑和模板,這些都是一眼就能看懂的東西,而且往往在童年時(shí)代就已掌握。即使是更復(fù)雜的設(shè)備,如排版機(jī)和照相機(jī),也可能需要一些培訓(xùn)或練習(xí),但它們通常是建立在簡單的原則之上的。
“
然而,如今,僅僅學(xué)習(xí)操作已成為整個(gè)設(shè)計(jì)行業(yè)標(biāo)準(zhǔn)的軟件,就需要投入前所未有的時(shí)間和精力。盡管過去的設(shè)計(jì)師會(huì)發(fā)現(xiàn)他們的能力幾乎是神奇的,但他們的復(fù)雜性使得初學(xué)者經(jīng)常求助于大量的手冊、課程以及數(shù)小時(shí)數(shù)小時(shí)的教程視頻來入門。人們還能如何理解構(gòu)成其界面的圖標(biāo)、菜單、調(diào)色板和鍵盤快捷鍵?
數(shù)字時(shí)代的平面設(shè)計(jì)
作為回應(yīng),一個(gè)平行的市場出現(xiàn)了,它提供了更簡單、學(xué)習(xí)曲線更平緩的替代方案。但這些更友好的應(yīng)用程序展示了一個(gè)不幸的權(quán)衡:隨著可訪問性的提高,功能往往會(huì)下降。因此,雖然它們可能更易于使用,但靈活性較差,產(chǎn)生的結(jié)果質(zhì)量較低,并且通常不適合專業(yè)人士。
我們可以將這種權(quán)衡可視化為二維圖,其中 X 軸代表能力和靈活性,而 Y 軸代表易用性。我們可以看到專業(yè)工具被吸引到右下方,易用性通常較低,而功能和靈活性較高;相比之下,針對(duì)新手的工具往往位于相反的方向(在左上角)。
這種模式本身很清楚:當(dāng)今最強(qiáng)大的工具也是最難使用的。不太明顯的是我們應(yīng)該如何解釋它。復(fù)雜性是現(xiàn)代世界不可避免的副產(chǎn)品嗎?還是可以通過一種新的方法避免這種情況?無論哪種方式,隨著對(duì)我們時(shí)間和注意力的需求不斷增加——而且看不到盡頭——有些東西必須要放棄。
考慮以下趨勢:
信息過載:爭奪我們注意力的內(nèi)容數(shù)量之多——書籍、社交媒體、新聞、播客、電影和電視、教育材料等等——正在逐漸失控。在我們的個(gè)人生活和職業(yè)生活中,我們中很少有人有足夠的時(shí)間來消費(fèi)我們想要的一切。
增加工作量:由于各種行業(yè)都面臨著預(yù)算緊縮和日益激烈的競爭(有時(shí)來自技術(shù)本身的進(jìn)步)即使是訓(xùn)練有素的專家也感到壓力,要求用更少的資源做更多的事情。
被困的潛力:與此同時(shí),我們的同事中可能隱藏了大量的才能和價(jià)值。我們的同行者中有多少人擁有值得貢獻(xiàn)的想法,無論是創(chuàng)意、技術(shù)還是戰(zhàn)略,但缺乏使用傳統(tǒng)工具來表達(dá)它們的專業(yè)知識(shí)?
工作的未來:最后,隨著我們工作性質(zhì)的變化,一個(gè)不確定的前景隱約可見,幾乎我們所有人都可以預(yù)期在未來十年至少會(huì)出現(xiàn)一些混亂。但如今的工具非常專業(yè),即使是適度的職業(yè)轉(zhuǎn)型也會(huì)帶來不切實(shí)際的技能提升和再培訓(xùn)負(fù)擔(dān)。
這些是我們不能指望輕易解決的深層次問題。但是,如果有可能重振我們技術(shù)歷史上的那種精神——當(dāng)時(shí),技術(shù)的進(jìn)步使我們的工具更容易使用,而不是更難使用——我相信,我們可以在所有這些方面取得重大進(jìn)展。這就是為什么我相信現(xiàn)在是時(shí)候采用一種全新的方式與我們的工具進(jìn)行交互了。
03
一種全新的做事模式
談話呢?
對(duì)話可能看起來很平凡,但它是我們最強(qiáng)大、最通用的技能之一。人們甚至可以將其稱為一種人類合作的通用界面:一種單一的表達(dá)方式,使我們能夠與會(huì)計(jì)師一起規(guī)劃財(cái)務(wù)、與醫(yī)生討論醫(yī)療問題、與老朋友重溫生活,或者簡單地吃頓午餐。它展示了驚人的靈活性,與當(dāng)今數(shù)字界面的復(fù)雜性形成鮮明對(duì)比——更不用說它們的學(xué)習(xí)曲線了。
“對(duì)話看似平淡無奇,但它是我們?nèi)祟愖钔ㄓ玫募寄苤??!?/strong>
當(dāng)然,當(dāng)計(jì)算機(jī)介入時(shí),談話的優(yōu)雅往往會(huì)崩潰。在速度、內(nèi)存和網(wǎng)絡(luò)方面,它們可能繞著我們轉(zhuǎn),但它們在破譯我們的交流方式方面表現(xiàn)得尤為糟糕。具有諷刺意味的是,正是由于缺乏使我們?nèi)绱巳菀桌斫鈱?duì)話的結(jié)構(gòu),機(jī)器才很難理解它。即使在今天,隨著基于語音的界面的快速發(fā)展和普及,智能手機(jī)和家庭助理的病毒式視頻仍然比比皆是,它們被自然語言的歧義所混淆,常常達(dá)到滑稽的極端。但如果情況改變了呢?我們很難理解真正的對(duì)話界面所代表的體驗(yàn)轉(zhuǎn)變有多么深刻,所以讓我們一步一步地想象它可能是什么樣子,來激發(fā)我們創(chuàng)造力。
首先,就像人與人之間的對(duì)話一樣,大多數(shù)任務(wù)都以初始陳述或請求開始——描述用戶想要什么,目標(biāo)是創(chuàng)建內(nèi)容、消費(fèi)信息,還是開發(fā)新軟件。
例如,讓我們想象一位營銷專業(yè)人員使用一種純粹通過對(duì)話驅(qū)動(dòng)的設(shè)計(jì)工具來啟動(dòng)一個(gè)新項(xiàng)目:
“我想要一個(gè)深藍(lán)色背景的橫幅廣告布局,我們公司的標(biāo)志在角落里,我們最新的標(biāo)語寫在日出時(shí)的森林照片旁邊?!?/p>
注意語言的隨意、日常品質(zhì)。它或多或少與一個(gè)人可能寫給同事的電子郵件相同。而且它也一樣多才多藝;事實(shí)上,以下是同一界面可能用于自動(dòng)化高管的日常新聞消費(fèi):
“閱讀上周《福布斯》、《財(cái)富》和《華爾街日報(bào)》的頭條新聞,讓我知道生物技術(shù)領(lǐng)域是否有任何公司宣布 IPO?!?/p>
簡單吧?不需要新的語法或結(jié)構(gòu)。令人驚奇的是,在一個(gè)完全不同的行業(yè)中,在技術(shù)意義上幾乎不需要改變就可以切換到完全不同類型的任務(wù)。因此,讓我們更進(jìn)一步,思考一下這個(gè)工作流程如何轉(zhuǎn)化為一個(gè)簡單的軟件開發(fā)項(xiàng)目:
有必要停下來考慮一下信息的絕對(duì)深度,即使是像這樣的簡單短語也能傳達(dá)信息。僅僅一兩句話,整個(gè)項(xiàng)目就已經(jīng)啟動(dòng)——一個(gè)全新的想法已經(jīng)建立起來了——其細(xì)節(jié)已準(zhǔn)備好進(jìn)行完善。沒有點(diǎn)擊,沒有拖動(dòng),沒有菜單層次結(jié)構(gòu),也沒有在互聯(lián)網(wǎng)上搜索教程。
“僅僅一兩句話,整個(gè)項(xiàng)目就已經(jīng)啟動(dòng)——一個(gè)從頭開始建立的新想法——它的細(xì)節(jié)已經(jīng)準(zhǔn)備好了?!?/strong>
但這只是一種方法。畢竟,對(duì)話并不總是以如此詳盡的陳述開始,而且一些最好的創(chuàng)意起點(diǎn)指的是已經(jīng)存在的東西。讓我們想象一下這如何應(yīng)用于我們的營銷示例:
“我想創(chuàng)建一個(gè)橫幅,看起來像這樣,但將徽標(biāo)和標(biāo)語替換為我們自己的:”
請注意,就像很多對(duì)話一樣,意思是通過單詞和非語言的東西傳播的——在這種情況下,圖像、徽標(biāo)、文案等。一個(gè)真正流利的對(duì)話伙伴會(huì)理解所有這些信息——不僅僅是孤立的,而是融入一個(gè)單一的、相互聯(lián)系的思想空間。
這確實(shí)是一個(gè)全新的范式。但是,盡管它與我們目前與工具的交互方式截然不同,但它都建立在三個(gè)簡單的想法之上:
1、對(duì)話是一種看似強(qiáng)大的東西,它使我們能夠輕松地描述和調(diào)用復(fù)雜的任務(wù)。
2、盡管行話可能會(huì)因一個(gè)領(lǐng)域而異,但對(duì)話的基礎(chǔ)是通用的。作為適用于幾乎任何目標(biāo)的單一表達(dá)方式,它本質(zhì)上是易于訪問的。
3、我們交談的方式通常是多模態(tài)的,也就是說,我們將我們的語言與視覺、聲音和其他外部非語言事物的參考結(jié)合起來。
如果體驗(yàn)就此結(jié)束,它已經(jīng)代表了對(duì)我們工作方式造成了巨大的破壞。即使這個(gè)假設(shè)的工具不能比這一步更進(jìn)一步,這種強(qiáng)大的委托形式(僅通過自然語言創(chuàng)建的初稿)可以全面提高生產(chǎn)力,并減輕幾乎每個(gè)人的認(rèn)知負(fù)擔(dān)。但真正的訣竅是接下來會(huì)發(fā)生什么:獨(dú)白變成對(duì)話,并隨著時(shí)間的推移而演變。
04
完全對(duì)話式工作流程的功能
對(duì)話是信息雙向流動(dòng)的交流。在多次互動(dòng)的過程中,一個(gè)單一的、持久的想法可以從模糊的草圖演變?yōu)槌善?。在每一步——無論是陳述、問題還是答案——都添加了細(xì)節(jié),消除了歧義,最終的畫面變得更加清晰。
因此,當(dāng)對(duì)話界面可以用建議做出響應(yīng)時(shí),它的真正力量就會(huì)顯現(xiàn)出來:用戶可以接受、拒絕或修改的整個(gè)行動(dòng)過程,這反過來又會(huì)刺激更多的對(duì)話。從這個(gè)意義上說,人工智能更像是一個(gè)合作伙伴而不是工具:富有創(chuàng)造力、足智多謀并致力于幫助解決問題。讓我們回到前面例子中的生物技術(shù)主管,想象一下她的對(duì)話式 AI 會(huì)如何回應(yīng):
“我已經(jīng)閱讀了您要求的文章。沒有公司宣布IPO,但有三家公司宣布了新一輪融資,兩家公司宣布 FDA 批準(zhǔn)新療法。你想了解更多嗎?”
請注意,這個(gè)單一的回答不僅回答了最初的問題,而且還提供了全新的選項(xiàng),供用戶探索。其他時(shí)候,響應(yīng)可能涉及語言以外的媒介,例如我們的營銷專家的情況:在這里,AI 可能會(huì)以草圖布局進(jìn)行響應(yīng),并提供請求修改的機(jī)會(huì),甚至可以呈現(xiàn)多個(gè)布局并為用戶提供一個(gè)簡單的選擇:
“你喜歡A還是B?”
有時(shí),人工智能需要在繼續(xù)之前消除用戶請求的歧義,就像我們在軟件開發(fā)示例中想象的那樣:
“意見箱郵件的主題行應(yīng)該說什么?”
從這里開始,對(duì)話繼續(xù),來來回回,直到達(dá)到預(yù)期的結(jié)果。
現(xiàn)在,讓我們將所有內(nèi)容放在一起,并在我們的三個(gè)示例場景中的每一個(gè)中想象一個(gè)完整的對(duì)話,從頭到尾:
創(chuàng)意:
用戶:“將標(biāo)語做大一點(diǎn),給我找一張不同的圖片,背景是夕陽?!?/p>
AI:[提出修訂草案]
用戶:“很好,但將口號(hào)分成兩行。”
AI:[提出修訂草案]
用戶:“完美!”
信息:
AI:“沒有公司宣布IPO,但三家公司宣布了新一輪融資,兩家公司宣布 FDA 批準(zhǔn)了新療法。你想了解更多嗎?”
用戶:“我不需要知道 IPO,但哪些公司獲得了 FDA 批準(zhǔn)?”
AI:“AcmeBiotech, Inc. 和 Pacific CoastPharmaceuticals?!?/p>
用戶:“Acme的療法有什么作用?”
人工智能:“降低血壓?!?/p>
用戶:“有趣。總結(jié)所有這些,并將其添加到我明天的全體會(huì)議的筆記中?!?/p>
發(fā)展:
AI:“意見箱郵件的主題行應(yīng)該說什么?”
用戶:“哦,對(duì)了。讓我們使用“來自用戶的傳入建議”,后跟用戶的名字?!?/p>
AI:[為用戶編譯和運(yùn)行代碼。]
用戶:“也將電子郵件的副本發(fā)送給用戶,主題為‘您的建議已提交?!?/p>
通過將我們的工作流程從單一提示擴(kuò)展到持續(xù)的、來回的對(duì)話,我們將一個(gè)已經(jīng)很強(qiáng)大的想法變成了真正具有啟發(fā)性的東西——一個(gè)可以作為幾乎任何任務(wù)的單一界面的工具。只需要幾個(gè)基本的想法就可以勾畫出來:
1、對(duì)話被提議打斷——工具提出想法或行動(dòng)計(jì)劃的時(shí)刻,用戶可以通過反提議接受、拒絕或修改這些想法或行動(dòng)計(jì)劃。
2、對(duì)話的流程是開放式的和迭代的,想法是在多次交流的過程中形成的,通常涉及反復(fù)試驗(yàn),直到滿足用戶的需求。
簡而言之,這就是我們對(duì) AI 未來的愿景。這項(xiàng)技術(shù)不僅提供革命性的功能,而且有望改變我們體驗(yàn)它們的方式。事實(shí)上,我相信人工智能會(huì)扭轉(zhuǎn)我們都學(xué)會(huì)接受的權(quán)衡:高質(zhì)量的結(jié)果必須與復(fù)雜、勞動(dòng)密集型的工作流程相關(guān)聯(lián)。人工智能——尤其是對(duì)話式人工智能——是第一次將權(quán)衡轉(zhuǎn)化為雙贏。
“對(duì)話式 AI 是第一次將權(quán)衡轉(zhuǎn)化為雙贏。”
事實(shí)上,如果我們想象一下之前的二維圖,我們可以看到人工智能有望進(jìn)入一個(gè)尚未探索的象限:右上角,易用性和性能都很高。
對(duì)話式 AI 可以提升功能和體驗(yàn)的便利性
05
我們?nèi)绾螌?shí)現(xiàn)這一目標(biāo)
鑒于它的廣泛性和對(duì)細(xì)微差別的敏感性,機(jī)器長久以來無法進(jìn)行對(duì)話式交互也就不足為奇了。盡管如此,自然語言處理 (NLP) 領(lǐng)域已將對(duì)話的分析理解作為其主要任務(wù)之一。在整個(gè)研究人員社區(qū)的努力推動(dòng)下,這是幾代人的努力,我們的工作從他們那里受益匪淺——特別是對(duì)以下概念的嚴(yán)格、科學(xué)的理解:
自然語言:日常言語的自由形式,包括模棱兩可甚至不正確的語法、隱含意義和俚語。
持久狀態(tài):不斷回憶對(duì)話的歷史,以及調(diào)用它的多種速記形式。例如,最初明確提及的想法可能隨后被稱為“它”或“那個(gè)”。
含糊不清:能夠識(shí)別沒有意義的陳述或問題,做出有根據(jù)的猜測來填補(bǔ)空白,并在必要時(shí)詢問更多信息。
領(lǐng)域?qū)I(yè)知識(shí):特定領(lǐng)域(如醫(yī)學(xué)、軟件開發(fā)或市場營銷)固有的行話、實(shí)踐和期望。
盡管這些能力在人類身上往往是自然而然的,但每一種能力都代表了人工智能研究人員數(shù)十年的工作,而且還遠(yuǎn)未得到解決。但是,在我們尋求實(shí)現(xiàn)自然的、語言驅(qū)動(dòng)的工作流程的過程中,即使是增量的進(jìn)展也可以提供有意義的好處。事實(shí)上,最近的進(jìn)展正在以前所未有的方式實(shí)現(xiàn)真實(shí)的、類似人類的交互,許多令人興奮的例子表明這項(xiàng)技術(shù)可能很快就會(huì)觸手可及。
06
基礎(chǔ)模型的突破力
大型語言模型 (LLM),也稱為基礎(chǔ)模型,是支持這項(xiàng)技術(shù)的核心發(fā)展。這些大型神經(jīng)網(wǎng)絡(luò)在概念上與過去十年中因能夠識(shí)別圖像中的對(duì)象、翻譯語言甚至合成真實(shí)聲音而日益流行的神經(jīng)網(wǎng)絡(luò)相似。但它們在幾個(gè)關(guān)鍵方面有所不同,這些方面極大地?cái)U(kuò)展了它們的潛力。
首先,它們很大。一些最大的例子具有數(shù)千億個(gè)參數(shù)——微小的、相互關(guān)聯(lián)的決策制定元素共同產(chǎn)生了它們的能力——比之前的例子增長了一個(gè)數(shù)量級(jí)。這種提升提供了必要的能力來消耗前幾年無法想象的訓(xùn)練數(shù)據(jù)語料庫,包括數(shù)十TB的文本量。
基礎(chǔ)模型代表了規(guī)模的數(shù)量級(jí)增長
但真正的神奇之處在于他們使用該秤的方式?;A(chǔ)模型的特點(diǎn)是,它們研究訓(xùn)練數(shù)據(jù)的范圍空前廣泛——例如,在大量文本中識(shí)別單詞之間的關(guān)系,從明顯到微妙。與之前可能會(huì)在到達(dá)句子末尾之前失去焦點(diǎn)的網(wǎng)絡(luò)不同,基礎(chǔ)模型可以在整個(gè)段落甚至頁面中推斷出一個(gè)詞相對(duì)于另一個(gè)詞的重要性。
注意力機(jī)制允許輸入流中的單個(gè)詞與大量相鄰詞關(guān)聯(lián),每個(gè)詞的關(guān)聯(lián)程度不同
更強(qiáng)大是它們自我訓(xùn)練的能力,避免了對(duì)人工整理數(shù)據(jù)集的需求,并避開了機(jī)器學(xué)習(xí)中最大的瓶頸之一?;A(chǔ)模型大量使用填空測試等技術(shù),其句子中的每個(gè)單詞在被閱讀之前都被屏蔽,讓模型有機(jī)會(huì)利用其對(duì)文本關(guān)系不斷增長的理解來做出有根據(jù)的猜測。隨著時(shí)間的推移,它了解到,例如“it"s getting outside”這樣的句子中遺漏的詞更可能是“熱”或“冷”,而不是“電視”或“藍(lán)莓”。由于訓(xùn)練數(shù)據(jù)同時(shí)提供了問題和答案,因此無需手動(dòng)管理,讓模型能夠以極快的速度自主學(xué)習(xí)。
這些特性結(jié)合在一起,使培訓(xùn)課程真正令人難以置信——例如,仔細(xì)檢查維基百科上每篇文章的每一個(gè)詞,甚至是整個(gè)公共互聯(lián)網(wǎng)的基于文本的存儲(chǔ)庫 Common Crawl。就在那時(shí),一些非凡的事情發(fā)生了:這些巨大的、高度專注的、經(jīng)過大量訓(xùn)練的模型開發(fā)了一種在機(jī)器中從未見過的語言技巧。他們可以組成類似人類的表達(dá)作品,無論是完成句子還是撰寫整篇文章。他們可以閱讀文檔并以引人注目的洞察力回答有關(guān)其內(nèi)容的問題。有些甚至可以解釋笑話。
由于所有這些原因,基礎(chǔ)模型是朝著我們夢寐以求的對(duì)話界面邁出的令人鼓舞的一步。但即使處于最佳狀態(tài),它們也只是一個(gè)開始。盡管他們說話的方式常常很不可思議,但讓談話如此強(qiáng)大的許多因素仍然超出了他們的理解范圍。
07
對(duì)話式AI的開放性問題
在未來的幾年里,我們的研究將探索超越最大基礎(chǔ)模型的能力,其中許多模型觸及到我們智能概念的核心。讓我們談?wù)勔恍?/p>
知識(shí)表示:
盡管基礎(chǔ)模型所接觸的訓(xùn)練數(shù)據(jù)種類繁多——通常廣泛涵蓋藝術(shù)、科學(xué)、文學(xué)、政治、歷史等——人們普遍認(rèn)為它們?nèi)狈?duì)基礎(chǔ)主題的概念意識(shí),甚至從本質(zhì)上講,他們最令人印象深刻的表達(dá)方式是一種統(tǒng)計(jì)模仿。這就是這樣一個(gè)模型如何正確地回答像“誰在甲殼蟲樂隊(duì)中演奏貝斯?”這樣的問題——利用一個(gè)復(fù)雜的相互關(guān)聯(lián)的概率網(wǎng)絡(luò)來正確地生成“保羅”和“麥卡特尼”這兩個(gè)詞——而不需要真正理解像 20 世紀(jì)流行文化這樣的概念、搖滾樂器,甚至音樂本身。
人工智能將如何克服這一局限性是該領(lǐng)域最懸而未決的問題之一,回答這個(gè)問題的價(jià)值怎么強(qiáng)調(diào)都不為過。這可能只是意味著可以簡單反應(yīng)的模型(盡管通常具有驚人的深度)和可以真正推理的模型之間的區(qū)別。這樣的人工智能會(huì)像我們一樣理解單詞背后的概念,從而解鎖更深入、更敏銳的對(duì)話能力。
少樣本學(xué)習(xí):
解決知識(shí)表示的問題可能會(huì)解鎖一系列相關(guān)的進(jìn)展,其中最有用的是少樣本學(xué)習(xí)。雖然現(xiàn)代 AI 能夠做出令人驚奇的事情,但通常需要大量的訓(xùn)練數(shù)據(jù)才能實(shí)現(xiàn)這一目標(biāo)——如果沒有大量預(yù)算、資源和專業(yè)知識(shí),通常無法克服這一管理障礙。即使是簡單的 AI 任務(wù),這也是一個(gè)嚴(yán)重的進(jìn)入壁壘,并且可能成為基于自然罕見事件(有時(shí)是幸運(yùn)的)的應(yīng)用程序的全面障礙,例如預(yù)測汽車事故的新原因。
一個(gè)能夠進(jìn)行少樣本學(xué)習(xí)的模型將足夠智能,僅通過少量示例就可以推導(dǎo)出工作中的原理,就像人類可能會(huì)做的那樣,從而在不需要數(shù)百、數(shù)千甚至數(shù)百萬個(gè)額外示例的情況下概括它所學(xué)的內(nèi)容,通過蠻力將這些點(diǎn)連接起來。它幾乎可以使每項(xiàng)任務(wù)的學(xué)習(xí)速度更快、成本更低、效率更高,同時(shí)還能實(shí)現(xiàn)許多目前還不可能實(shí)現(xiàn)的應(yīng)用。
遷移學(xué)習(xí):
與此相關(guān)的是,更好地掌握基礎(chǔ)知識(shí)將使模型能夠?qū)⑵湓谝粋€(gè)領(lǐng)域的經(jīng)驗(yàn)也應(yīng)用到其他領(lǐng)域——這是一個(gè)當(dāng)前被稱為遷移學(xué)習(xí)的前沿話題. 近期的應(yīng)用可能是漸進(jìn)的,例如機(jī)器人優(yōu)雅地將在一個(gè)工廠學(xué)到的日常工作轉(zhuǎn)換到另一個(gè)工廠,可能使用不同的平面圖,但在極限情況下,機(jī)器有一天可能會(huì)完全接受我們的隱喻和類比技巧,以及所需要的技巧??紤]一個(gè)學(xué)生在壓力下(可能甚至沒有意識(shí)到)準(zhǔn)備假期晚餐時(shí)運(yùn)用在商學(xué)院學(xué)到的時(shí)間管理技術(shù),數(shù)學(xué)老師參考餅圖來教授分?jǐn)?shù)課,甚至作曲家將節(jié)奏與動(dòng)物的腳步聲或和弦的音符與日落的音調(diào)。無論是詩意的還是文字的,我們將我們在生活的一個(gè)方面學(xué)到的東西運(yùn)用到另一個(gè)方面的能力——通常是即時(shí)的——這是人類智力的一個(gè)決定性特征。
主動(dòng)學(xué)習(xí):
理想情況下,對(duì)話式人工智能也將參與主動(dòng)學(xué)習(xí):認(rèn)識(shí)到自己在意識(shí)上的差距,并知道如何向用戶詢問所需的信息來彌補(bǔ)這些差距。這是一種遠(yuǎn)遠(yuǎn)超出當(dāng)今大多數(shù)機(jī)器學(xué)習(xí)模型的習(xí)慣,這些模型傾向于以未經(jīng)檢驗(yàn)的自信來響應(yīng)任何查詢,而這往往是不應(yīng)該的。相比之下,未來的人工智能必須采取謙遜的姿態(tài),對(duì)知識(shí)的邊界敏感,并渴望擴(kuò)展它們。這一優(yōu)點(diǎn)將有助于使系統(tǒng)更安全、更透明,同時(shí)鼓勵(lì)它們以更加多樣化和有機(jī)的方式發(fā)展。
多模態(tài)表達(dá):
對(duì)于我們所有的語言談話,重要的是要記住談話的意義有多少超出了文字本身。例如,想象一下運(yùn)動(dòng)鞋設(shè)計(jì)師之間的頭腦風(fēng)暴會(huì)議,圍坐在一張散布在桌子上的拼貼畫周圍——照片、草圖和任何其他可能激發(fā)想法的東西。就其本身而言,談話的文字記錄可能會(huì)神秘地提及“這件上的條紋”或“那件上的花邊”,這些都毫無意義。然而,當(dāng)與視覺效果相結(jié)合時(shí),通過將一種媒體的豐富性和另一種媒體的特殊性相結(jié)合,所發(fā)揮的想法就變得栩栩如生。誠然,對(duì)此類非文本內(nèi)容的解釋極大地?cái)U(kuò)大了對(duì)話式人工智能的挑戰(zhàn)——在這種情況下,它需要像理解語言一樣流利地理解圖像,以及兩者之間的關(guān)系——但它對(duì)任何領(lǐng)域工作流程的影響肯定會(huì)讓這些努力變得值得。想象一下,我們的鞋設(shè)計(jì)師可以通過向 AI 驅(qū)動(dòng)的繪圖工具展示去年模型的圖片,說“讓我們從這個(gè)開始”并描述他們希望它如何演變來節(jié)省多少時(shí)間。
常識(shí):
最后,這些技術(shù)都可能在解決人工智能歷史上最古老的問題之一:常識(shí)的獲取方面發(fā)揮作用。盡管被認(rèn)為是理所當(dāng)然的,但它指的是我們通常認(rèn)為我們的人類同胞擁有的知識(shí)體系;一張由不成文的規(guī)則和無法表達(dá)的期望組成的網(wǎng)絡(luò),很少被承認(rèn),但卻是理解世界所必需的。盡管缺乏嚴(yán)格的定義或結(jié)構(gòu),而且廣泛分布于各個(gè)領(lǐng)域以至于無法量化,但常識(shí)對(duì)于人類推理來說是如此的基礎(chǔ),以至于很難想象沒有它的日子。例如,當(dāng)請助理幫忙安排一次全體會(huì)議時(shí),通常沒有必要規(guī)定它不應(yīng)該在午夜、周日或超級(jí)碗(super Bowl期間舉行。
即使是當(dāng)今最先進(jìn)的人工智能,這種本能通常仍然無法企及。想一想語音助手是多么容易被意外觸發(fā),例如,沒有意識(shí)到用戶可能并不是想讓他們的“80 年代重金屬金曲”播放列表在燭光晚餐期間開始播放。這種失誤在今天很煩人,但隨著人工智能的作用越來越大,風(fēng)險(xiǎn)也會(huì)增加。想象一下,要求電子郵件助理整理您的收件箱,卻發(fā)現(xiàn)它實(shí)現(xiàn)了其目標(biāo)(從技術(shù)上講),方法是刪除每條未讀郵件,或者使用無法理解靈感與抄襲之間區(qū)別的設(shè)計(jì)工具。像這樣的例子提醒我們,雖然常識(shí)看似微不足道,但缺乏常識(shí)可能是毀滅性的。
08
道德與安全
如果不承認(rèn)它提出的獨(dú)特的倫理甚至安全問題,那么關(guān)于對(duì)話式人工智能的討論就不會(huì)完整。由于語法的流動(dòng)性和措辭的解釋性,對(duì)話交流可以采用幾乎無限的形式,這使得即使是最基本的對(duì)話人工智能也成為一個(gè)異常復(fù)雜的系統(tǒng)。驗(yàn)證這樣一個(gè)系統(tǒng)——即確保它按預(yù)期運(yùn)行,并確定在什么情況下它可能無法做到這一點(diǎn)——絕非易事。但這也是必不可少的;鑒于這項(xiàng)技術(shù)在我們的未來可能發(fā)揮的重要作用,它必須建立在透明和信任的基礎(chǔ)上。
一方面,智能工具的發(fā)展與當(dāng)下許多最緊迫的問題交織在一起,其中最主要的是偏見和公平問題。我們?nèi)绾螛?gòu)建對(duì)話式人工智能,以同樣的效率和尊重對(duì)待整個(gè)世界的用戶?我們?nèi)绾谓趟鼉?yōu)雅地駕馭全球鴻溝——不僅是語言本身,還有圍繞它的文化、傳統(tǒng)和社會(huì)期望的各個(gè)層面?畢竟,單詞不存在于真空中,真正的理解不僅僅取決于它們的字典定義。對(duì)話式人工智能必須像我們一樣認(rèn)識(shí)到這一點(diǎn)。
與此密切相關(guān)且同樣緊迫的是安全問題??紤]到語言的主觀性,有時(shí)甚至連說話的人都會(huì)感到困惑,我們需要強(qiáng)大的基準(zhǔn)和驗(yàn)證指標(biāo)來量化 AI 準(zhǔn)確和可預(yù)測地解析它的能力,以及定義明確的保護(hù)措施以防止不必要的行動(dòng)過程。與對(duì)話式工作流的可能性一樣令人興奮,我們必須同樣熱衷于盡量減少它們造成傷害的可能性,即使是無意的。
沒有單一的解決方案可以解決所有這些問題,但即使是現(xiàn)在,也可以朝著正確的方向采取有意義的步驟。一個(gè)是采用日益流行的多利益相關(guān)方法,其中召集了多元化且具有代表性的貢獻(xiàn)者小組,為該技術(shù)的開發(fā)、測試和部署帶來更廣泛的視角。另一個(gè)是支持對(duì)可解釋性的研究:人工智能可以進(jìn)行一種內(nèi)省,揭示其預(yù)測、推論和決策背后的原因。這些話題多年來一直被熱烈討論,我樂觀地認(rèn)為對(duì)話式人工智能的發(fā)展將刺激這兩個(gè)方面的進(jìn)步。
最后,還有一個(gè)哲學(xué)問題籠罩著整個(gè)人工智能的未來,尤其是對(duì)話式人工智能:人類用戶的最終角色。無論土星之旅變得多么快速、高效和自動(dòng)化,最重要的因素始終是它為乘客帶來的好處。因此,雖然船舶的儀表板可能會(huì)被簡化,并且有一天會(huì)完全消失——連同我們應(yīng)用程序和設(shè)備的傳統(tǒng)界面——但我們的控制感必須得到保留。
值得慶幸的是,可以說對(duì)話式人工智能特別適合兌現(xiàn)這一承諾,因?yàn)樗举|(zhì)上依賴于人類的參與。遠(yuǎn)不止讓我們“了解情況”,如果沒有我們的想法、愿望和貢獻(xiàn)的輸入,自然語言界面就無法運(yùn)行,對(duì)這些的理解直接轉(zhuǎn)化為行動(dòng)。從這個(gè)意義上說,我相信它們能夠像其他技術(shù)一樣賦予我們力量。
09
結(jié)論
人工智能正在為現(xiàn)代世界中一些最棘手的問題提供一種全新的解決方案。它擴(kuò)展了我們消費(fèi)信息的能力,提高了我們的生產(chǎn)力,揭示了數(shù)據(jù)中隱藏的意義,甚至增強(qiáng)了我們的藝術(shù)性。但要真正獲得其價(jià)值,必須通過如此直觀的體驗(yàn)來訪問這些功能,這樣我們才能毫不費(fèi)力地表達(dá)想法、協(xié)同工作并從頭到尾保持控制。
對(duì)話式人工智能就是這種體驗(yàn)。它通過我們已經(jīng)在日常生活中使用的自然語言提供大規(guī)模機(jī)器學(xué)習(xí)的非凡力量,幾乎不需要我們?nèi)魏螙|西,即使它讓變革能力觸手可及——力量和可訪問性的最終平衡。通過將我們從瑣碎的任務(wù)中解放出來,剩下的就是挖掘我們?nèi)诵缘墓ぷ鳎何覀兊脑妇?、我們的?chuàng)造力以及造就我們每個(gè)人的獨(dú)特視角。
關(guān)鍵詞: 對(duì)話式人工智能時(shí)代已經(jīng)到來 人工智能