機器之心報道
編輯:陳萍、澤南
AI 發(fā)展方向需要轉(zhuǎn)向「小數(shù)據(jù)」了。
吳恩達(Andrew Ng)在 AI 領(lǐng)域有著很高的聲譽。在 2000 年代后期,他率先使用 GPU 與斯坦福大學(xué)的學(xué)生一起訓(xùn)練深度學(xué)習(xí)模型,并于 2011 年創(chuàng)立了 Google Brain,以通過分布式集群計算機開發(fā)超大規(guī)模的人工神經(jīng)網(wǎng)絡(luò)。2014 年 5 月,吳恩達加入百度,負(fù)責(zé)「百度大腦」計劃,并擔(dān)任百度公司首席科學(xué)家,2017 年 3 月,吳恩達宣布從百度辭職。2017 年 12 月,吳恩達宣布成立人工智能公司 Landing . AI,擔(dān)任公司的首席執(zhí)行官。
近日,吳恩達在接受 IEEE Spectrum 的采訪時,他表示已經(jīng)確定了 AI 領(lǐng)域的下一個重大轉(zhuǎn)變方向,是時候從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)、優(yōu)質(zhì)數(shù)據(jù)。
目前,吳恩達的工作重心在其所創(chuàng)立的 Landing.AI 公司,該公司建立了一個名為 LandingLens 的平臺,以幫助制造商通過計算機視覺改進視覺檢測。此外,他還成為了「以數(shù)據(jù)為中心」的 AI 運動的擁護者,并表示小數(shù)據(jù)也能解決包括模型效率、準(zhǔn)確率和偏見等問題在內(nèi)的 AI 大問題。
以下是采訪原文,機器之心做了不改變原意的編譯。
吳恩達:以數(shù)據(jù)為中心的解決方案來解決 AI 大問題
在過去十年左右的時間里,深度學(xué)習(xí)的巨大進步是由越來越大的模型處理越來越多的數(shù)據(jù)推動的。有人認(rèn)為這是一個不可持續(xù)的軌跡。你怎么看?
吳恩達:這確實是個值得思考的問題。我們在 NLP 領(lǐng)域已經(jīng)看到了的基礎(chǔ)模型的發(fā)展?jié)摿?。我?NLP 模型變得更大以及在計算機視覺中構(gòu)建基礎(chǔ)模型感到興奮。我認(rèn)為在 CV 中仍有很多信息可以利用:但由于計算性能以及視頻處理成本的限制,還無法建立相關(guān)的基礎(chǔ)模型。大數(shù)據(jù)、大模型作為深度學(xué)習(xí)算法引擎已經(jīng)成功的運行了大約 15 年,到目前為止,它仍然有動力。話雖如此,它只適用于某些問題,還有一系列其他問題需要小數(shù)據(jù)才能解決。
你提到的計算機視覺基礎(chǔ)模型是指什么?
吳恩達:這是我和斯坦福大學(xué)的一些朋友創(chuàng)造的一個術(shù)語,它指的是非常大的模型,并在非常大的數(shù)據(jù)集上進行訓(xùn)練,使用時可以為特定的應(yīng)用進行微調(diào)。例如,我們可以將 GPT-3 視為 NLP 領(lǐng)域的一個基礎(chǔ)模型。基礎(chǔ)模型為開發(fā)機器學(xué)習(xí)應(yīng)用程序提供了新范式,應(yīng)用前景很大,但同時也面臨著一些挑戰(zhàn):如何確保合理公平且沒有偏見,特別是這些挑戰(zhàn)隨著越來越多的研究者在基礎(chǔ)模型上構(gòu)建應(yīng)用,會越來越明顯。
為視頻建立一個基礎(chǔ)模型需要什么?
吳恩達:我認(rèn)為存在可擴展性問題。相比于 NLP,在 CV 領(lǐng)域處理大量視頻圖像需要巨大的計算,我認(rèn)為這就是為什么在 NLP 中率先出現(xiàn)了基礎(chǔ)模型。許多研究者正在研究這個問題,我認(rèn)為在 CV 領(lǐng)域開發(fā)此類模型已經(jīng)有了早期跡象。但如果有比現(xiàn)在高 10 倍以上的處理器,我們就可以輕松構(gòu)建包含 10 倍視頻數(shù)據(jù)的基礎(chǔ)視覺模型。
話雖如此,過去十年深度學(xué)習(xí)的成功更多的發(fā)生在面向消費者的公司,這些公司擁有龐大的用戶群體,有時是數(shù)十億用戶,因此數(shù)據(jù)量巨大。雖然這種機器學(xué)習(xí)范式為消費軟件帶來了巨大的經(jīng)濟價值,但我發(fā)現(xiàn)這種規(guī)?;椒ú贿m用于其他行業(yè)。
聽你這么說很有趣,因為你早期的工作是在一家面向消費者、擁有數(shù)百萬用戶的公司。
吳恩達:十多年前,當(dāng)我提議啟動 Google Brain 項目時,使用谷歌的計算基礎(chǔ)設(shè)施來構(gòu)建大型神經(jīng)網(wǎng)絡(luò),這是一個有爭議的做法。一位非常資深的研究者曾告訴我,創(chuàng)辦 Google Brain 會對我的職業(yè)生涯不利。我不應(yīng)該只關(guān)注擴大規(guī)模,而應(yīng)該專注于架構(gòu)創(chuàng)新。
在數(shù)據(jù)行業(yè)中,我認(rèn)為重點必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。擁有 50 個精心設(shè)計的示例就足以向神經(jīng)網(wǎng)絡(luò)解釋用戶希望它學(xué)習(xí)什么。
我記得當(dāng)我和我的學(xué)生發(fā)表第一篇 NeurIPS workshop 論文時,提倡使用 CUDA 進行深度學(xué)習(xí)——另一位 AI 領(lǐng)域的資深人士告訴我:CUDA 編程很復(fù)雜,作為一種編程范式,工作量太大了,但我沒有辦法說服他。
我想他們現(xiàn)在都相信了。
吳恩達:我也這樣認(rèn)為。在過去的一年里,當(dāng)我與人們談?wù)撘詳?shù)據(jù)為中心的 AI 運動時,我總是想到 10 或 15 年前與人們談?wù)撋疃葘W(xué)習(xí)和可擴展性時的情景。在過去的一年里,我和 10 年前的評價一樣:這里沒有什么新東西以及這似乎是錯誤的方向。
你如何定義以數(shù)據(jù)為中心的 AI,為什么你認(rèn)為它是一種運動?
吳恩達:以數(shù)據(jù)為中心的 AI 是一門學(xué)科,它的研究重點是構(gòu)建 AI 系統(tǒng)所需的數(shù)據(jù)。對于 AI 系統(tǒng),你必須用代碼實現(xiàn)一些算法,比如神經(jīng)網(wǎng)絡(luò),然后在你的數(shù)據(jù)集上訓(xùn)練它?;谶@種范式,在過去的十年中,深度學(xué)習(xí)網(wǎng)絡(luò)有了顯著的改進,以至于對于許多應(yīng)用程序,代碼、神經(jīng)網(wǎng)絡(luò)架構(gòu)基本上是一個已經(jīng)解決的問題。因此,在實際應(yīng)用程序中,現(xiàn)在更有效率的做法是保持神經(jīng)網(wǎng)絡(luò)體系架構(gòu)不變,轉(zhuǎn)而尋找改進數(shù)據(jù)的方法。
當(dāng)我講到這件事時,很多研究者表示贊成,他們按照這個規(guī)律已經(jīng)做了 20 年了。現(xiàn)在是時候把這些事做成一門系統(tǒng)的工程學(xué)科了。
以數(shù)據(jù)為中心的 AI 運動要比一家公司或一組研究人員要大得多。我和其他合作者在 NeurIPS 上組織了一個以數(shù)據(jù)為中心的 AI 研討會,我對出席的作者和演講者的數(shù)量感到非常高興。
你經(jīng)常談?wù)摴净驒C構(gòu)可供使用的數(shù)據(jù)非常少,以數(shù)據(jù)為中心的 AI 如何幫助他們?
吳恩達:我們曾聽說過很多用數(shù)百萬張圖像構(gòu)建的視覺系統(tǒng)——我曾經(jīng)用 3.5 億張圖像構(gòu)建了一個人臉識別系統(tǒng)。用數(shù)億張圖像構(gòu)建的系統(tǒng),是用 50 張圖像構(gòu)建的系統(tǒng)所遠(yuǎn)不能達到的。但事實證明,如果你有 50 個非常好的示例,你就可以構(gòu)建一些有價值的東西,比如缺陷檢查系統(tǒng)。在許多缺少巨型數(shù)據(jù)集的行業(yè)中,我認(rèn)為重點必須從大數(shù)據(jù)轉(zhuǎn)向優(yōu)質(zhì)數(shù)據(jù)。擁有 50 個精心設(shè)計的示例足以向神經(jīng)網(wǎng)絡(luò)解釋用戶希望它學(xué)習(xí)什么。
僅使用 50 張圖像來訓(xùn)練模型,你所講的是在非常大的數(shù)據(jù)集上訓(xùn)練模型并對其進行微調(diào)?還是訓(xùn)練一個全新的模型?
吳恩達:讓我來描述一下 Landing.AI 的功能。在為制造商做視覺檢查時,我們經(jīng)常使用預(yù)訓(xùn)練模型 RetinaNet,其實預(yù)訓(xùn)練只是一小部分難題,更大的難題是可供使用的工具,使制造商能夠選擇正確的圖像集并以相同的方式標(biāo)注它們。我們在視覺、NLP 和語音方面都遇到過一個非常實際的問題,即使是人類標(biāo)注也不能就標(biāo)簽達成一致。對于大數(shù)據(jù)應(yīng)用程序,常見的反應(yīng)是:如果數(shù)據(jù)有噪聲,我們只需通過大量數(shù)據(jù),相應(yīng)的算法就會對其進行平均。但是,如果能夠開發(fā)出一些工具來標(biāo)記數(shù)據(jù)不一致的地方,并提供具有針對性的方法改善數(shù)據(jù)的一致性,這將是一個獲得高性能系統(tǒng)的更有效的方法。
收集更多的數(shù)據(jù)通常會有所幫助,但如果研究者嘗試為所有內(nèi)容收集更多數(shù)據(jù),那代價非常昂貴。
例如,如果你有 10,000 張圖像,其中 30 張圖像屬于一類,而這 30 張圖像標(biāo)簽有不一致的地方,我們要做的就是構(gòu)建一種工具來對不一致的數(shù)據(jù)子集進行處理。因此,你可以非??焖俚刂匦聵?biāo)記這些圖像以使其更加一致,從而提高性能。
對高質(zhì)量數(shù)據(jù)的關(guān)注是否會幫助消除數(shù)據(jù)偏見?如果你可以在訓(xùn)練之前更多地整理數(shù)據(jù)?
吳恩達:肯定是這樣。很多研究人員指出,有偏見的數(shù)據(jù)是導(dǎo)致有偏見系統(tǒng)的眾多因素之一。在數(shù)據(jù)工程方面我們已經(jīng)有許多深思熟慮的工作。在 NeurIPS 的研討會上,Olga Russakovsky 對此進行了非常精彩的演講。在 NeurIPS 主會議上,我也非常喜歡 Mary Gray 的演講,其中談到了以數(shù)據(jù)為中心的 AI 如何成為解決方案的一部分(而不是整個解決方案)。像 Datasheets for Datasets 這樣的新工具似乎也是這個難題的重要組成部分。
以數(shù)據(jù)為中心的 AI 為我們提供的強大工具之一是能夠設(shè)計數(shù)據(jù)子集。想象一下,訓(xùn)練一個機器學(xué)習(xí)系統(tǒng),發(fā)現(xiàn)它的性能對于大多數(shù)數(shù)據(jù)集都還可以,但它的性能只對數(shù)據(jù)的一個子集有偏見。如果你嘗試更改整個神經(jīng)網(wǎng)絡(luò)架構(gòu)以僅提高該子集的性能,那將非常困難。但是,如果你可以調(diào)整數(shù)據(jù)的子集,則可以更有針對性地解決問題。
當(dāng)說到數(shù)據(jù)工程,我們主要在討論的是什么?
吳恩達:在 AI 領(lǐng)域里,數(shù)據(jù)清洗非常重要,但清洗數(shù)據(jù)的方式通常高度依賴手動的方式。在計算機視覺中,有人可能會通過 Jupyter Notebook 來可視化圖像,以發(fā)現(xiàn)問題并修復(fù)它。我對能夠讓自己擁有大規(guī)模數(shù)據(jù)集的工具感到興奮,這些工具可以快速有效地將你的注意力吸引到標(biāo)簽嘈雜的數(shù)據(jù)子集上。或者快速將你的注意力吸引到 100 個類別中的一個,這將有利于收集更多數(shù)據(jù)。但如果你嘗試為所有內(nèi)容收集更多數(shù)據(jù),那可能是一項非常昂貴的工作。
例如,我曾經(jīng)發(fā)現(xiàn)當(dāng)背景中有汽車噪音時,語音識別系統(tǒng)的性能會很差。知道這一點讓我能夠在后臺收集更多有汽車噪音的數(shù)據(jù),而不是試圖為所有事情收集更多數(shù)據(jù),后者將是昂貴且緩慢的。
使用合成數(shù)據(jù)怎么樣,這通常是一個好的解決方案嗎?
吳恩達:我認(rèn)為合成數(shù)據(jù)是以數(shù)據(jù)為中心的 AI 工具箱中的重要工具。在 NeurIPS 研討會上,Anima Anandkumar 做了一個關(guān)于合成數(shù)據(jù)的精彩演講。我認(rèn)為合成數(shù)據(jù)的重要用途不僅僅是作為增加學(xué)習(xí)算法數(shù)據(jù)集的預(yù)處理步驟。我希望看到更多工具讓開發(fā)人員使用合成數(shù)據(jù)生成作為迭代機器學(xué)習(xí)開發(fā)閉環(huán)的一部分。
你的意思是,合成數(shù)據(jù)可以讓你在更多數(shù)據(jù)集上嘗試模型嗎?
吳恩達:不,這是個例子。假如你試圖檢測智能手機外殼上的缺陷,手機上有很多不同類型的缺陷:如劃痕、凹痕、砂孔、涂料問題等等。如果你訓(xùn)練了一個模型,然后通過錯誤分析發(fā)現(xiàn)它總體上表現(xiàn)良好,但在凹痕問題上表現(xiàn)不佳,那么合成數(shù)據(jù)生成可以讓你以更有針對性的方式解決問題。你可以僅為凹痕記類別生成更多數(shù)據(jù)。
合成數(shù)據(jù)生成是一個非常強大的工具,我們也會率先嘗試很多其他工具。例如數(shù)據(jù)增強、提高標(biāo)簽一致性,或者僅僅要求工廠收集更多數(shù)據(jù)。
你能舉個例子嗎?有公司聯(lián)系 Landing.AI 并表示在視覺檢測方面有問題時,你如何說服他們部署自己的產(chǎn)品?
吳恩達:當(dāng)客戶找到我們時,我們首先就他們面臨的問題進行交流,并查看一些圖像以驗證該問題在計算機視覺方面是否可行。通常我們會要求他們將數(shù)據(jù)上傳到 LandingLens 平臺。我們經(jīng)常就以數(shù)據(jù)為中心的 AI 方法論向他們提供建議,并幫助他們標(biāo)注數(shù)據(jù)。
Landing.AI 的一項重要業(yè)務(wù)就是幫助制造業(yè)公司應(yīng)用機器學(xué)習(xí)。我們很多時候的工作是確保軟件足夠快速,易于使用。通過機器學(xué)習(xí)開發(fā)的迭代流程,我們?yōu)榭蛻籼峁┲T如如何在平臺上訓(xùn)練模型、何時以及如何改進數(shù)據(jù)標(biāo)記以提高模型性能等方面的建議。最后,我們的培訓(xùn)和軟件服務(wù),及已訓(xùn)練模型將部署到工廠的邊緣設(shè)備上,來為他們提供全程支持。
如何應(yīng)對不斷變化的需求?如果工廠的產(chǎn)品發(fā)生變化或照明條件發(fā)生變化,AI 模型能否跟上?
吳恩達:每個工廠的情況都不一樣。很多情況下都會出現(xiàn)數(shù)據(jù)飄移現(xiàn)象,但是有一些制造商的生產(chǎn)線已經(jīng)運行了 20 年幾乎沒有變化,他們也預(yù)計未來五年不發(fā)生變化。那些穩(wěn)定的環(huán)境使事情變得更容易。
對于其他生產(chǎn)商,我們提供了在出現(xiàn)重大數(shù)據(jù)漂移問題時進行標(biāo)記的工具。我發(fā)現(xiàn)授權(quán)制造業(yè)客戶更正數(shù)據(jù)、重新訓(xùn)練和更新模型是非常重要的事。因為如果發(fā)生問題并是在美國凌晨 3 點的情況下,我希望他們能夠立即調(diào)整他們的機器學(xué)習(xí)算法以維持工廠運轉(zhuǎn)。
在消費互聯(lián)網(wǎng)軟件中,我們可以訓(xùn)練一些機器學(xué)習(xí)模型來服務(wù)數(shù)十億用戶。在制造業(yè)中,你可能有一萬家制造商構(gòu)建一萬個自定義 AI 模型。挑戰(zhàn)在于,Landing.AI 如何在不雇傭一萬名機器學(xué)習(xí)專家的條件下做到這一點?
你是說要使其規(guī)?;?,就必須在用戶側(cè)做大量訓(xùn)練等工作?
吳恩達:就是這樣。這是人工智能領(lǐng)域中的一個全行業(yè)問題,而不僅僅是制造業(yè)??纯瘁t(yī)療行業(yè),每家醫(yī)院的電子健康記錄格式都略有不同。醫(yī)院如何在此之上訓(xùn)練自己的 AI 模型?期望每家醫(yī)院的 IT 人員都發(fā)明新的神經(jīng)網(wǎng)絡(luò)架構(gòu)是不現(xiàn)實的。
擺脫困境的唯一方法是構(gòu)建工具,通過為客戶提供工具來構(gòu)筑數(shù)據(jù)和表達他們的領(lǐng)域知識,從而使他們能夠構(gòu)建自己的模型。這是 Landing.AI 在計算機視覺領(lǐng)域中所做的工作,而 AI 領(lǐng)域需要其他團隊在其他領(lǐng)域執(zhí)行。
你認(rèn)為在以數(shù)據(jù)為中心的 AI 運動中,還有哪些是人們需要知道的重要事情?
吳恩達:過去十年,人工智能最大的轉(zhuǎn)變是向深度學(xué)習(xí)的轉(zhuǎn)變。我認(rèn)為在這十年中,最大的變化很可能是轉(zhuǎn)向以數(shù)據(jù)為中心的人工智能。隨著當(dāng)今神經(jīng)網(wǎng)絡(luò)架構(gòu)的成熟,我認(rèn)為在很多實際應(yīng)用上,瓶頸將出在「能否有效獲取開發(fā)運行良好系統(tǒng)所需的數(shù)據(jù)」上。
以數(shù)據(jù)為中心的 AI 運動在整個社區(qū)擁有巨大的能量和動力。我希望更多研究和開發(fā)人員能夠加入并持續(xù)推動它。
https://spectrum.ieee.org/andrew-ng-data-centric-ai
關(guān)鍵詞: 從大數(shù)據(jù)轉(zhuǎn)向小數(shù)據(jù)