科大訊飛研究院萬字解讀ChatGPT,透露三大積累和產(chǎn)業(yè)機會 快播

發(fā)布時間:2023-02-18 22:48:25  |  來源:騰訊網(wǎng)  

智東西(公眾號:zhidxcom)


【資料圖】

作者 | 程茜

編輯 | 漠影

當(dāng)下,聊天機器人ChatGPT當(dāng)之無愧已經(jīng)成為科技圈“頂流”,國內(nèi)各賽道龍頭也已站在資本聚光燈下。

海外前有微軟新版Bing,后有谷歌對話式AI服務(wù)Bard,都助推著生成式AI發(fā)展走向高潮。反觀國內(nèi),百度、騰訊、阿里、京東、科大訊飛等各賽道龍頭積極下場,其中不少公司已經(jīng)為自己劃定了ddl(最后期限)。

上周,京東產(chǎn)業(yè)版ChatGPT ChatJD落地,百度生成式對話AI產(chǎn)品文心一言預(yù)告3月推出,科大訊飛類ChatGPT技術(shù)5月將率先落地AI學(xué)習(xí)機……其余幾家也均透露,相關(guān)研發(fā)正在有序推進。

短短兩個半月時間,科技玩家爭先恐后奔向這一場AI競賽,而這也正是對其AI技術(shù)儲備的“突擊檢查”。那么,在一眾互聯(lián)網(wǎng)大廠中,作為智能語音和人工智能賽道的頭部玩家,科大訊飛如何看待自己在這波浪潮中的機會?它們能在百天內(nèi)實現(xiàn)類ChatGPT技術(shù)應(yīng)用落地的殺手锏是什么?

近日,科大訊飛副總裁、研究院執(zhí)行院長劉聰在一篇公開的萬字分享中,深刻闡述了對類ChatGPT技術(shù)應(yīng)用機會的思考,其中很坦誠務(wù)實地分析了當(dāng)下ChatGPT熱潮對國內(nèi)科技界的深遠影響,以及科大訊飛將如何依托過去的積累在這一波浪潮中贏得先機。

▲科大訊飛副總裁、研究院執(zhí)行院長劉聰

一、ChatGPT成為頂流,主要靠這三件事

很多人可能都有這樣一個疑問,聊天機器人這樣的產(chǎn)品其實并不少見,為何偏偏ChatGPT火了?與此同時,日前“靠ChatGPT在家賺錢”的視頻一度成為國外社交平臺上的流量密碼,這都要得益于其強大的對話功能。

ChatGPT的“聰明”在于其能學(xué)習(xí)和理解人類的語言并進行對話,在互動過程中根據(jù)上下文互動,讓你仿佛是和真人在面對面交流。除此以外,它還可以寫郵件、寫腳本、文案、代碼,將你的意圖盡可能精準地呈現(xiàn)出來。

更讓人驚嘆的是,ChatGPT還可以完成更為復(fù)雜的推理和學(xué)習(xí)任務(wù),基于其對上下文內(nèi)容的理解,它能在人類的適當(dāng)引導(dǎo)下完成邏輯推理、新知識快速學(xué)習(xí)等。

劉聰認為,總體而言,ChatGPT呈現(xiàn)出的初步“智慧涌現(xiàn)”,至少可以總結(jié)為五個維度的能力,分別為海量高價值信息的全量在線記憶能力、自然語言輸入的任意任務(wù)和多輪對話理解能力、復(fù)雜邏輯的思維鏈推理能力、多角色多風(fēng)格的長文本生成表達能力、即時新知識學(xué)習(xí)應(yīng)用于進化能力。

為了更直觀的說明ChatGPT的強大之處,劉聰談道,他們挑選了一些ChatGPT的代表案例。如對于“擺龍門陣”這一名詞,起初可能并沒有在其語料庫中出現(xiàn)或有準確定義,但經(jīng)過用戶的反饋與引導(dǎo)后,ChatGPT能夠快速理解并調(diào)整其回答。

▲ChatGPT即時新知識學(xué)習(xí)與進化案例

從更底層來看,劉聰談道,ChatGPT背后除了算法創(chuàng)新外,還需要高質(zhì)量訓(xùn)練數(shù)據(jù)、創(chuàng)新模型訓(xùn)練算法以及AI工程化等多方面綜合因素。

具體而言,OpenAI基于Transformer架構(gòu)打造的InstructGPT模型,能夠從原始45TB語料清洗得到570GB高質(zhì)量訓(xùn)練語料,同時實現(xiàn)有效存儲,并且該模型還引入了830GB代碼文本數(shù)據(jù),能夠增強其邏輯推理能力。

此外,該模型基于數(shù)萬個Prompt任務(wù)的統(tǒng)一生成范式有監(jiān)督訓(xùn)練,能夠提高大模型對語義和知識表征的泛化及準確理解能力。

在偏見性和 基于人工反饋優(yōu)化生成結(jié)果,主要針對的是無偏見和符合人類預(yù)期。

這些綜合因素的作用下,才使得ChatGPT的應(yīng)用效果如此顯著。這樣看來,想要真正落地類ChatGPT技術(shù)需要考量的因素十分多。

那么為何在這場搶灘ChatGPT的角逐中,科大訊飛只給自己留了三個月的落地時間?以該公司為代表的中國企業(yè)落地類ChatGPT技術(shù)的底氣又是什么?

二、AI國家隊的殺手锏:開源40個模型、50TB語料、推理近千倍加速……

我們可以一一對應(yīng)來看。

首先來看預(yù)訓(xùn)練基礎(chǔ)大模型,這已經(jīng)是國內(nèi)研究的熱門領(lǐng)域。

目前國內(nèi)已經(jīng)誕生了多個基于文本或多模態(tài)的預(yù)訓(xùn)練基礎(chǔ)大模型。劉聰說:“這些預(yù)訓(xùn)練基礎(chǔ)大模型與國外基礎(chǔ)大模型算法的差距不大,奠定了比較好的大模型訓(xùn)練的平臺基礎(chǔ)并進行了算法模型的框架積累?!?/p>

所以,在大模型之上的創(chuàng)新才是關(guān)鍵。劉聰補充道,國內(nèi)玩家想要打造類ChatGPT大模型,還需要在數(shù)據(jù)、算力和工程實現(xiàn)上下功夫。通俗而言,就是既要打造高質(zhì)量的預(yù)訓(xùn)練模型,又能有足夠的算力支撐。

而這些,科大訊飛恰好都有。

核心算法上,ChatGPT的主結(jié)構(gòu)是當(dāng)前業(yè)界主流的Transformer模型,目前科大訊飛已經(jīng)將Transformer深度神經(jīng)網(wǎng)絡(luò)算法應(yīng)用于其語音識別、圖文識別、機器翻譯中,而這些也已經(jīng)從其面向消費者和行業(yè)的具體方案中充分體現(xiàn)出來。

并且科大訊飛還開源了6大類、超40個通用領(lǐng)域的系列中文預(yù)訓(xùn)練語言模型,相關(guān)模型庫月均調(diào)用量超1000萬。

第二個優(yōu)勢在于

數(shù)據(jù)積累,行業(yè)認知大模型想達到人類專家水平,就需要大量行業(yè)文本語料和用戶反饋數(shù)據(jù)做支撐。不過還有一大難關(guān)是,數(shù)據(jù)既要涵蓋多行業(yè)、多領(lǐng)域,還需技術(shù)加人工實現(xiàn)雙重篩選,進一步提高其模型生成結(jié)果的可靠性、合理性和可控性。

劉聰透露,科大訊飛在多年積累和研發(fā)過程中,已經(jīng)擁有超過50TB的行業(yè)語料和每天超過10億人次用戶交互的活躍應(yīng)用。

有了軟件支撐,硬件也是極為重要的物質(zhì)基礎(chǔ)。劉聰談道,超大模型由于參數(shù)規(guī)模大、數(shù)據(jù)體量大,因此需要更大的

算力支持,帶來過高的訓(xùn)練成本。在推理階段也如此,“以對話交互為例,目前單次交互成本大致是主流方法的1000倍左右”。

科大訊飛在總部合肥的數(shù)據(jù)中心,在工程技術(shù)方面能實現(xiàn)百億參數(shù)大模型推理效率的近千倍加速。而這也是讓其大模型能夠真正落地,并實現(xiàn)規(guī)?;瘧?yīng)用的基礎(chǔ)。

因此,在這些深厚技術(shù)積累的助推下,科大訊飛才能夠迅速抓住ChatGPT爆發(fā)的風(fēng)口。劉聰認為:“ChatGPT的推出是深度學(xué)習(xí)提出后又一個里程碑式的技術(shù)革命,將為以自然語言處理為核心的認知智能技術(shù)發(fā)展提供新的‘歷史機遇期’。”

三、找準教育、醫(yī)療切入,“1+N”計劃形成長期價值

技術(shù)儲備就緒后,下一個擺在科技企業(yè)面前的關(guān)鍵難題是:用到哪里?

科大訊飛給出的答案十分明確,其中之一就是AI學(xué)習(xí)機。劉聰解釋稱,是因為他們需要選擇一個社會剛需或有大量活躍用戶的應(yīng)用作為切入點。而教育行業(yè)完全符合其特點,教育乃國之根本,且有大量長期活躍用戶。

放到具體的應(yīng)用場景中,用戶在與相應(yīng)設(shè)備進行交互體驗時,會產(chǎn)生大量的數(shù)據(jù)并反饋給模型,數(shù)據(jù)與模型相結(jié)合能夠進一步提高理解能力,使得模型能不斷更新迭代。

以科大訊飛最新的AI學(xué)習(xí)機T20 Pro為例,其科技屬性已經(jīng)不可同日而語,并且在學(xué)生中扮演著重要的角色,能夠幫助學(xué)生查漏補缺,并且該設(shè)備在不斷的學(xué)習(xí)與“進化”中,能針對不同學(xué)生的具體情況定制個性化的學(xué)習(xí)計劃。

▲科大訊飛AI學(xué)習(xí)機T20 Pro

劉聰認為,這樣就可以在數(shù)據(jù)和模型間形成正向反饋的“漣漪效應(yīng)”,也決定了未來科大訊飛在該領(lǐng)域的產(chǎn)業(yè)落地、價值兌現(xiàn)之路能走到多元。在智慧教育領(lǐng)域,科大訊飛可謂佳績滿滿,其全場景因材施教解決方案已經(jīng)服務(wù)5萬多所學(xué)校、1.3億多師生。

除此以外,科大訊飛在醫(yī)療領(lǐng)域的積累同樣豐富,科大訊飛的“智醫(yī)助理”系統(tǒng),可以作為全科醫(yī)生助手診斷1200多種常見病,累計提供5.5億次AI輔診建議。人機交互領(lǐng)域,其智能語音開放平臺AI服務(wù)日調(diào)用次數(shù)超過50億,實現(xiàn)60個語種的語音識別、語音合成、機器翻譯、圖文識別等關(guān)鍵技術(shù)研發(fā)。

▲科大訊飛對話系統(tǒng)應(yīng)用行業(yè)

基于以上考慮,科大訊飛計劃推出“1+N”架構(gòu),提高大模型在細分行業(yè)的實用性。“1”是指以通用認知智能大模型算法研發(fā)及高效訓(xùn)練底座平臺,“N”則是針對于多個行業(yè)領(lǐng)域的專用大模型版本,其中,包含教育、醫(yī)療、汽車、人機交互、辦公、翻譯、工業(yè)等,均圍繞著科大訊飛的核心技術(shù)展開布局。

這也是科大訊飛對于AI領(lǐng)域研發(fā)、應(yīng)用等更為宏觀、長期價值的考量。劉聰提到,圍繞ChatGPT眾多行業(yè)都有了被深度重構(gòu)的機會,資本市場的興奮可以理解,但更關(guān)鍵是要把科研、產(chǎn)品、服務(wù)做好,經(jīng)得起時間的考驗。

結(jié)語:國內(nèi)類ChatGPT產(chǎn)品將落地,AI競賽進入新節(jié)點

隨著ChatGPT的爆紅,生成式AI讓一眾玩家處于資本聚光燈下,且更容易被資本泡沫強推前行,失去理性判斷。

因此,ChatGPT熱潮涌起時,更需要置身于其中的玩家擦亮雙眼,腳踏實地。作為人工智能國家隊的科大訊飛,已經(jīng)多次成為ChatGPT概念股的焦點。對此,劉聰坦言:“對于科大訊飛來說還是要本著‘實事求’的態(tài)度,緊跟國際最新發(fā)展,保持敬畏之心?!?/p>

科大訊飛擁有相應(yīng)技術(shù)實力積累的同時,與國際大廠的差距也無法忽略,因此,該公司將這一波浪潮與自身優(yōu)勢相結(jié)合,跑出一條自己的路,不被產(chǎn)業(yè)洪流完全左右。

生成式AI的發(fā)展已經(jīng)到達一個關(guān)鍵節(jié)點,待國內(nèi)類ChatGPT產(chǎn)品真正落地,這場交鋒將達到高潮。

關(guān)鍵詞: 科大訊飛研究院萬字解讀ChatGPT 透露三大積累和產(chǎn)業(yè)機會 人工智能 科大訊飛

 

網(wǎng)站介紹  |  版權(quán)說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權(quán)所有 郵箱聯(lián)系:920 891 263@qq.com