谷歌發(fā)布AI芯片TPUv4 相較于上一代TPUv3性能平均提升2.7倍

發(fā)布時間:2021-06-16 10:11:05  |  來源:雷鋒網(wǎng)  

谷歌 I/O 開發(fā)者大會去年因為疫情而取消,今年采取線上形式強勢回歸。在沒有開發(fā)者在場的谷歌園區(qū)內(nèi),谷歌 CEO 桑達爾?皮查伊(Sundar Pichai)宣布推出多項全新技術,除了能夠幫助用戶實現(xiàn)“空間瞬移”的全息視頻聊天技術 Project Starling 讓人耳目一新,還有最新一代 AI 芯片 TPU v4。

“這是我們在 谷歌 上部署的最快的系統(tǒng),對我們來說是一個具有歷史意義的里程碑。”皮查伊這樣介紹到。

最強 TPU,速度提升 2 倍,性能提升 10 倍

谷歌官方介紹,在相同的 64 芯片規(guī)模下,不考慮軟件帶來的改善,TPU v4 相較于上一代 TPU v3 性能平均提升 2.7 倍。

在實際應用中,TPU v4 主要與 Pod 相連發(fā)揮作用,每一個 TPU v4 Pod 中有 4096 個 TPU v4 單芯片,得益于其獨特的互連技術,能夠?qū)?shù)百個獨立的處理器轉(zhuǎn)變?yōu)橐粋€系統(tǒng),互連帶寬在規(guī)模上是其他任何網(wǎng)絡技術的 10 倍,每一個 TPU v4 Pod 就能達到 1 exaFlOP 級的算力,實現(xiàn)每秒 10 的 18 次方浮點運算。這甚至是全球最快的超級計算機“富岳”的兩倍性能。

“如果現(xiàn)在有 1 千萬人同時使用筆記本電腦,所有這些計算機累加的計算能力,剛好就能夠達到 1 exaFLOP 的算力。而之前要達到 1 exaFLOP,可能需要專門定制一個超級計算機。”皮查伊如是說。

今年的 MLPerf 結(jié)果表明,谷歌 TPU v4 的實力不容小覷,在使用 ImageNet 數(shù)據(jù)集的圖像分類訓練測試(準確度至少 75.90%),256 個 TPU v4 在 1.82 分鐘內(nèi)完成了這一任務,這幾乎與 768 個 Nvidia A100 圖形卡、192 個 AMD Epyc 7742 內(nèi)核(1.06 分鐘)、512 個華為 AI 優(yōu)化的 Ascend910 芯片以及 128 個英特爾 Xeon Platinum 8168 內(nèi)核(1.56 分鐘)組合在一起的速度一樣快。

當負責在大型維基百科語料庫上訓練基于 Transform 的閱讀理解 BERT 模型時,TPU v4 的得分也很高。使用 256 個 TPU v4 進行訓練需要 1.82 分鐘,比使用 4096 TPU v3 進行訓練所需的 0.39 分鐘要慢 1 分多鐘。同時,如果想要使用 Nvidia 的硬件達到 0.81 分鐘的訓練時間,需要 2048 張 A100 卡和 512 個 AMD Epyc 7742 CPU 內(nèi)核。

谷歌 同樣在 I/O 大會上展示了能夠用到 TPU v4 的具體 AI 實例,包括能夠同時處理網(wǎng)頁、圖像等多種數(shù)據(jù)的 MUM 模型(Multitask Unified Model,多任務統(tǒng)一模型)和專為對話打造的 LaMDA 都是能夠用到 TPU v4 的場景模型,前者比閱讀理解模型 BERT 強 1000 倍,適合賦能搜索引擎幫助用戶更加高效地得到自己想要的信息,后者則可以與人類進行不間斷的對話交流。

這一并不向外出售的 TPU,很快將在被部署在谷歌的數(shù)據(jù)中心,且 90% 左右的 TPU v4 Pod 都將使用綠色能源。另外,谷歌也表示,將在今年晚些時候開放給谷歌 Cloud 的客戶。

谷歌 自研 TPU,五年更新四代

谷歌 最早于 2016 年宣布首款內(nèi)部定制的 AI 芯片,區(qū)別于訓練和部署 AI 模型的最常見的組合架構,即 CPU 和 GPU 組合,第一代 TPU 在那場世界著名的人機圍棋大戰(zhàn)助力 AlphaGo 打敗李世石“一戰(zhàn)成名”,宣告并不是只有 GPU 才能做訓練和推理。

谷歌 第一代 TPU 采用 28nm 工藝制程,功耗大約 40w,僅適用于深度學習推理,除了 AlphaGo,也用在谷歌搜索、翻譯等機器學習模型中。

2017 年 5 月,谷歌發(fā)布了能夠?qū)崿F(xiàn)機器學習模型訓練和推理的 TPU v2,達到 180TFLOPs 浮點運算能力,同時內(nèi)存帶寬也得以提升,比同期推出的 CPU AI 工作負載提升 30 倍,比 GPU AI 工作負載提升 15 倍,被基于 4 塊 TPU v2 的 AlphaGo 擊敗的世界圍棋冠軍柯潔最直觀地感受了這一切。

2018 年 5 月,谷歌又發(fā)布第三代 TPU,性能是上一代 TPU 的兩倍,實現(xiàn) 420TFLOPs 浮點運算,以及 128GB 的高帶寬內(nèi)存。

按照一年一次迭代更新的節(jié)奏,谷歌理應在 2019 年推出第四代 TPU,不過這一年的 I/O 大會上,谷歌推出的是第二代和第三代 TPU Pod,可以配置超過 1000 顆 TPU,大大縮短了在進行復雜的模型訓練時所需耗費的時間。

在 AI 芯片發(fā)展史上,無論是從片上內(nèi)存上,還是從可編程能力來看,谷歌 TPU 都是不可多得的技術創(chuàng)新,打破 GPU 的“壟斷”地位,且打開云端 AI 芯片的新競爭格局。

發(fā)展五年的谷歌 TPU 在今天依然保持著強勁的競爭力,未來的世界是什么樣的?谷歌 TPU 已經(jīng)告訴了我們一小部分答案。

關鍵詞: 谷歌 AI芯片 TPUv3 性能

 

網(wǎng)站介紹  |  版權說明  |  聯(lián)系我們  |  網(wǎng)站地圖 

星際派備案號:京ICP備2022016840號-16 營業(yè)執(zhí)照公示信息版權所有 郵箱聯(lián)系:920 891 263@qq.com