中國(guó)最大 AI 單芯片邃思 2.0 在上海正式發(fā)布,這款芯片面向 AI 云端訓(xùn)練,尺寸為 57.5 毫米 ×57.5 毫米(面積為 3306mm2),達(dá)到了芯片采用的日月光 2.5D 封裝的極限,與上代產(chǎn)品一樣采用格羅方德 12nm 工藝,單精度 FP32 算力為 40TFLOPS,單精度張量 TF32 算力為 160TFLOPS,整數(shù)精度 INT8 算力為 320TOPS。
燧原科技創(chuàng)始人兼 COO 張亞林表示:“基于邃思 2.0 芯片打造的云燧 T20 加速卡支持的集群規(guī)模從上一代云燧 T10 的千張卡提升至 8000 卡,用云燧 T20 可以打造一個(gè) E 級(jí)單精度算力集群 CloudBlazer Matrix 2.0。”
E(Exascale)級(jí)計(jì)算也就是百萬(wàn)兆級(jí)的計(jì)算,是目前全球頂尖超算系統(tǒng)新的追逐目標(biāo)。用一個(gè)不精確的說(shuō)法來(lái)解釋百萬(wàn)兆級(jí)計(jì)算,一個(gè)百萬(wàn)兆級(jí)計(jì)算機(jī)一瞬間進(jìn)行的計(jì)算,相當(dāng)于地球上所有人每天每秒都不停地計(jì)算四年。
那號(hào)稱(chēng)中國(guó)最大 AI 單芯片,有何特色?競(jìng)爭(zhēng)力到底如何?
中國(guó)最大 AI 計(jì)算單芯片的兩個(gè)“首個(gè)”
2019 年底,燧原科技發(fā)布了從啟動(dòng)項(xiàng)目研發(fā)到發(fā)布用時(shí)僅 18 個(gè)月的云端訓(xùn)練芯片邃思 1.0,基于邃思 1.0 的云燧 T10 加速卡單精度算力高達(dá) 20TFLOPS。時(shí)隔一年半,邃思 2.0 和云燧 T20 就推向市場(chǎng)。之所以說(shuō)“就”,是因?yàn)樵贫擞?xùn)練這樣復(fù)雜的超高算力芯片通常的迭代周期是兩到三年一代,如果遇上特殊情況可能還會(huì)延遲半年。
“我們第一代和第二代產(chǎn)品的迭代節(jié)奏快于業(yè)內(nèi)速度,主要有兩方面的原因,一方面是首代產(chǎn)品落地后得到了用戶(hù)的反饋,另一方面是我們內(nèi)部技術(shù)和架構(gòu)的更新,催生了第二代產(chǎn)品。”張亞林說(shuō),“從一開(kāi)始我們就強(qiáng)調(diào)精準(zhǔn)執(zhí)行產(chǎn)品路線圖,第二代產(chǎn)品精準(zhǔn)符合燧原的產(chǎn)品路線圖。”
至于燧原未來(lái)是否會(huì)保持云端 AI 訓(xùn)練芯片一年半一代的更新速度,張亞林表示目前暫不方便透露,但會(huì)精準(zhǔn)執(zhí)行其產(chǎn)品路線圖。
想要在整個(gè)行業(yè)缺芯的大背景下精準(zhǔn)執(zhí)行產(chǎn)品路線圖顯然是一個(gè)巨大的挑戰(zhàn)。在 2020 年疫情開(kāi)始的時(shí)候,燧原準(zhǔn)備了兩套方案,同時(shí)發(fā)揮團(tuán)隊(duì)成員超過(guò) 15 年以上行業(yè)經(jīng)驗(yàn)的優(yōu)勢(shì),以及第一代產(chǎn)品開(kāi)發(fā)過(guò)程中建立的供應(yīng)鏈關(guān)系,最終保證產(chǎn)品的如期推出。
張亞林說(shuō):“燧原的整個(gè)供應(yīng)鏈非常穩(wěn)健,客戶(hù)不必?fù)?dān)心燧原產(chǎn)品的供貨問(wèn)題。”
在路線圖精準(zhǔn)下,為什么要把芯片面積做大?張亞林解釋?zhuān)菰鲂酒歉吲e高打,做大芯片和高端芯片是我們追求的目標(biāo),芯片的尺寸大小背后代表的是科技含量,對(duì)于中國(guó)芯片行業(yè)的貢獻(xiàn)才是更大的價(jià)值體現(xiàn)。
但更大的芯片面積,就代表著更高成本。對(duì)此,張亞林表示:“一個(gè)成熟的產(chǎn)品必須考慮回報(bào)率(ROI)。我們需要做的是在定義產(chǎn)品時(shí),計(jì)算好這個(gè)產(chǎn)品在市場(chǎng)上的整體收入和銷(xiāo)量,從整個(gè)產(chǎn)品的成本角度和能夠帶給客戶(hù)的價(jià)值定義產(chǎn)品。所以我們會(huì)持續(xù)關(guān)注前沿技術(shù),但不會(huì)一味追求最新的技術(shù),依然從芯片的性能、成本、功耗三方面考慮。”
邃思 2.0 的特性中,有兩個(gè)中國(guó)首個(gè),一個(gè)是首個(gè)支持 TF32 精度的 AI 芯片,另一個(gè)是首個(gè)支持最先進(jìn)內(nèi)存 HBM2E 的產(chǎn)品。
AI 業(yè)界一直在追求用更小的數(shù)據(jù)位寬實(shí)現(xiàn)更高的模型精度。因此,AI 模型不斷優(yōu)化,數(shù)據(jù)類(lèi)型不斷推新,AI 芯片作為底層支撐就需要在支持更多數(shù)據(jù)類(lèi)型的同時(shí)消耗更低能耗。
TF32 代表的是張量單精度 32 位數(shù)據(jù)類(lèi)型,相比傳統(tǒng)的 FP32,TF32 在位寬更大的同時(shí),消耗的帶寬以及計(jì)算資源顯著更小,被業(yè)界視為能夠取代全尺寸單精度數(shù)據(jù)的革新性數(shù)據(jù)精度。
“目前業(yè)界的判斷是,TF32 對(duì)大部分 AI 場(chǎng)景都有應(yīng)用潛力。我們緊跟國(guó)際創(chuàng)新者的步伐,很早就布局?jǐn)?shù)據(jù)進(jìn)度的研究和分析,所以才有了燧原第二代產(chǎn)品就支持 TF32 精度。”張亞林同時(shí)指出:“邃思 2.0 支持全精度 AI 精度范圍,包括 FP32、TF32、FP16、BF16 和 INT8。要用一個(gè)非常革命性的算力引擎囊括所有的精度,并且能夠做到所有的精度的算力都有效,這是非常大的挑戰(zhàn)。”
打破算力與存儲(chǔ)之間的瓶頸,高效利用數(shù)據(jù)是 AI 芯片的另一大挑戰(zhàn)。在國(guó)內(nèi)最大的 AI 計(jì)算單芯片中,集成了 4 顆三星 HBM2E,支持最高 64 GB 內(nèi)存,內(nèi)存帶寬最高達(dá) 1.8 TB/s。
“HBM2E 是目前全球最快的存儲(chǔ)芯片,通過(guò)集成 4 顆 HBM2E,邃思 2.0 可以實(shí)現(xiàn)算力和存儲(chǔ)帶寬的匹配,實(shí)現(xiàn)更強(qiáng)算力。我們一直努力把理論算力和理論帶寬匹配,有效控制整個(gè)產(chǎn)品的成本。采用最新的技術(shù)并不會(huì)使我們產(chǎn)品的整體擁有成本增加。”張亞林表示。
在燧原的產(chǎn)品理念中,更好的 AI 芯片只是構(gòu)建 AI 系統(tǒng)的基礎(chǔ),客戶(hù)最關(guān)心的并非底層 AI 芯片的參數(shù)。
AI 芯片的比拼上升到系統(tǒng)級(jí)
“客戶(hù)并不會(huì)直接關(guān)心芯片層面的理論參數(shù),AI 落地的時(shí)候,他們更看重的是包括硬件、軟件、互聯(lián)的整體解決方案的有效利用率。所以我們已經(jīng)從單芯片的維度升級(jí)到了更高的系統(tǒng)層面。這也是燧原推出整機(jī)多卡、多卡互聯(lián)、分布式軟件、云端部署的一整套交鑰匙解決方案的原因。”張亞林說(shuō)道,“我們也更強(qiáng)調(diào)通過(guò)低碳綠色化的云燧智算集群服務(wù)客戶(hù)。”
AI 芯片的比拼要升級(jí)到 AI 系統(tǒng)的比拼,從用戶(hù)角度,對(duì)比 AI 系統(tǒng)的維度就會(huì)包含五個(gè):軟硬件一體的性?xún)r(jià)比、能效比、易用性、遷移成本、范化性。
既然是系統(tǒng),互聯(lián)技術(shù)非常關(guān)鍵。目前,業(yè)界通過(guò)不同的遠(yuǎn)程直接內(nèi)存訪問(wèn)技術(shù)(RDMA)進(jìn)行互聯(lián),比如 InfiniBand、iWARP、RoCE。燧原采用的是自研 GCU-LARE 互聯(lián)技術(shù)實(shí)現(xiàn)云燧 AI 加速卡的多卡集群互聯(lián),同時(shí)兼容業(yè)界其它 RDMA 技術(shù)便于與其它系統(tǒng)互連。
據(jù)介紹,燧原自研的 GCU-LARE 多卡集群互聯(lián)技術(shù),支持 6 個(gè)帶寬 50GB/s 的卡間傳輸端口,總帶寬達(dá)到 300 GB/s。
GCU-LARE 具備兩大特色,一個(gè)是不需要傳統(tǒng)互聯(lián)技術(shù)的連接卡或橋接卡,可以直接通過(guò)線纜的方式直連,降低成本。另一個(gè)是能夠根據(jù)用戶(hù)的需求和機(jī)房的實(shí)際情況,定制不同的拓?fù)浣Y(jié)構(gòu),能夠輕松構(gòu)建 4000 卡以上的大型訓(xùn)練集訓(xùn)拓?fù)?,?shí)現(xiàn)定制化集群產(chǎn)品 CloudBlazer Matrix。
在云燧 T20 的發(fā)布會(huì)上,燧原發(fā)布了云燧智算集群 CloudBlazer Matrix 2.0,最高可實(shí)現(xiàn) 1.3E(130000T)的單精度只能算力集群。
“云燧的互聯(lián)接口在單口速度保持不變的前提下,接口數(shù)量從 T10 的 4 個(gè)增加到 T20 的 6 個(gè),帶寬提升 150%。用云燧 T20 可以打造中國(guó) E 級(jí)單精度算力集群。”張亞林表示。
“在軟件易用性和遷移成本方面,我們投入了大量精力。”
與云燧 T20 一起發(fā)布的還有軟件平臺(tái)馭算 2.0,進(jìn)行了多方面提升,包括:為用戶(hù)提供高度契合業(yè)界標(biāo)準(zhǔn)的編程接口,以支持高性能自定義算子開(kāi)發(fā);全面優(yōu)化的動(dòng)態(tài)性模型支持;引入業(yè)界先進(jìn)的 MLIR 編譯框架;基于啟發(fā)式自適應(yīng)方法的算子泛化實(shí)現(xiàn)以及圖優(yōu)化策略,可以廣泛支持更多標(biāo)準(zhǔn)模型和自定義模型訓(xùn)練。
張亞林介紹:“馭算 2.0 的重點(diǎn)是提升易用和泛化,同時(shí)也能降低遷移用戶(hù)的成本。我們的產(chǎn)品從第一代開(kāi)始就采用的熱啟動(dòng)的方式降低用戶(hù)的遷移難度和成本,也就是在進(jìn)行硬件架構(gòu)設(shè)計(jì)的時(shí)候就已經(jīng)考慮了客戶(hù)的需求,在落地的時(shí)候得到了客戶(hù)認(rèn)可。如今第二代產(chǎn)品,同樣采用熱啟動(dòng)的方法,使用更多的用戶(hù)反饋進(jìn)一步降低遷移難度和成本。”
“在軟件層面,現(xiàn)在業(yè)內(nèi)比較通用的兩個(gè) AI 框架是 TensorFlow 和 Pytorch,如果他們的模型完全基于框架開(kāi)發(fā),切換到燧原的產(chǎn)品只需要硬件切換,軟件可以無(wú)縫切換。軟硬件一定是一體化,也只有軟硬一體化設(shè)計(jì)才對(duì)客戶(hù)有更高價(jià)值。”張亞林進(jìn)一步表示。
因此,馭算 2.0 還支持資源虛化、重組以及系統(tǒng)級(jí)設(shè)備虛擬化,使用戶(hù)在業(yè)務(wù)部署和資源整合上可擁有更為靈活的方法;支持 4000 卡規(guī)模以上的集群分布式訓(xùn)練;升級(jí)系統(tǒng)兼容性方案、部署方案和 RAS,支持主流操作系統(tǒng)最新發(fā)型版,開(kāi)箱即用,簡(jiǎn)化客戶(hù)定制系統(tǒng)集成,對(duì)客戶(hù)的部署和運(yùn)維更加友好。
實(shí)際上,芯片實(shí)力的比拼從來(lái)都不是單芯片的比拼,而是系統(tǒng)和生態(tài)實(shí)力的比拼??v觀目前全球前幾大芯片巨頭,持續(xù)迭代的芯片只是其保持競(jìng)爭(zhēng)力的基礎(chǔ),圍繞芯片的互聯(lián)技術(shù)、軟件棧以及不斷拓展的生態(tài)才是競(jìng)爭(zhēng)的護(hù)城河。
燧原既然已經(jīng)從單芯片的能力拓展到系統(tǒng)層面,那如何挑戰(zhàn)云端訓(xùn)練芯片的霸主英偉達(dá)?
聚焦三個(gè)業(yè)務(wù)群,與霸主差異化競(jìng)爭(zhēng)
“作為一個(gè)追趕或者新生者,差異化競(jìng)爭(zhēng)是必然的。燧原進(jìn)行差異化競(jìng)爭(zhēng)時(shí)一直注重三個(gè)部分,第一是我們提供的算力性?xún)r(jià)比一定要越來(lái)越好,第二是中國(guó)有最豐富的業(yè)務(wù)場(chǎng)景,也有最豐富業(yè)務(wù)場(chǎng)景使用者,所以我們與最豐富的業(yè)務(wù)場(chǎng)景做更多深入的結(jié)合,并進(jìn)一步做業(yè)務(wù)場(chǎng)景的泛化,第三就是本土化、定制化、客戶(hù)的服務(wù)開(kāi)發(fā)。”張亞林說(shuō)。
據(jù)了解,燧原從 2020 年公布第一個(gè)落地客戶(hù)騰訊開(kāi)始,一直堅(jiān)持的是三條業(yè)務(wù)線:泛互聯(lián)網(wǎng)、垂直行業(yè)(金融、交通、電力、醫(yī)療、工業(yè)等)以及新基建。
“我們?cè)谶@三個(gè)業(yè)務(wù)線上不斷發(fā)力,構(gòu)筑整個(gè)業(yè)務(wù)群,三個(gè)業(yè)務(wù)群都已經(jīng)實(shí)現(xiàn)客戶(hù)接入,同時(shí)也拿到非常多的客戶(hù)反饋。有了因第一代產(chǎn)品開(kāi)拓的戰(zhàn)略合作伙伴,利用第二代產(chǎn)品我們可以把這三個(gè)業(yè)務(wù)群的場(chǎng)景和客戶(hù)群擴(kuò)大,這也是燧原的生態(tài)護(hù)城河。”張亞林表示。
燧原科技 CEO 趙立東還宣布了燧原的異構(gòu)計(jì)算生態(tài) ——“燎原”計(jì)劃,目標(biāo)是以 AI 為起點(diǎn)構(gòu)建通用異構(gòu)計(jì)算生態(tài),構(gòu)建標(biāo)準(zhǔn)化技術(shù)體系,共建完整生態(tài)服務(wù)數(shù)字中國(guó)。
三個(gè)業(yè)務(wù)群對(duì)燧原的產(chǎn)品生態(tài)也有不同的意義。商業(yè)客戶(hù)更看重整個(gè)業(yè)務(wù),或產(chǎn)品的性?xún)r(jià)比。傳統(tǒng)行業(yè)更多看重的端對(duì)端的解決方案,而不是一個(gè)簡(jiǎn)單的加速卡。
張亞林解釋?zhuān)菰c商業(yè)客戶(hù)一起打磨產(chǎn)品,建立原始創(chuàng)新生態(tài)。在傳統(tǒng)行業(yè)客戶(hù)端打磨端對(duì)端的場(chǎng)景生態(tài)。同時(shí),燧原科技響應(yīng)國(guó)家綠色化的號(hào)召,實(shí)現(xiàn)集群的功耗、能效進(jìn)一步的優(yōu)化,真正能夠在新基建層面做出更加普惠的綠色算力,符合國(guó)家關(guān)于碳中和、碳達(dá)峰的政策導(dǎo)向。
“對(duì)于初創(chuàng)公司而言,剛開(kāi)始需要盡快證明我們的執(zhí)行力、產(chǎn)品以及商業(yè)化的價(jià)值,所以與一些戰(zhàn)略伙伴展開(kāi)了合作,但這并不代表我們的產(chǎn)品是專(zhuān)用的。隨著我們第二代產(chǎn)品的推出,會(huì)進(jìn)一步泛化場(chǎng)景和拓展客戶(hù),從一個(gè)點(diǎn)切開(kāi)一條線最后達(dá)到一個(gè)面。并且,對(duì)于任何一家初創(chuàng)公司而言,智能計(jì)算的任何一個(gè)市場(chǎng)都已經(jīng)足夠龐大。”張亞林說(shuō)。
除此之外,燧原還通過(guò)與之江實(shí)驗(yàn)室、上海交通大學(xué)、西安交通大學(xué)等高校的合作,構(gòu)建生態(tài)的同時(shí)培養(yǎng)人才。
對(duì)于與國(guó)內(nèi)和國(guó)際巨頭的競(jìng)爭(zhēng),張亞林的態(tài)度是,“目前對(duì)國(guó)內(nèi)芯片行業(yè)的發(fā)展是天時(shí)地利人和,我認(rèn)為國(guó)內(nèi)半導(dǎo)體和 AI 賽道百花齊放是好事,我們會(huì)堅(jiān)持自己,志存高遠(yuǎn)、腳踏實(shí)地。追趕國(guó)際巨頭,作為中國(guó)芯片公司有市場(chǎng)、政策和資金的優(yōu)勢(shì),我們的普惠智能算力只是第一步,未來(lái)燧原會(huì)在異構(gòu)計(jì)算領(lǐng)域不斷拓展產(chǎn)品線,提供更多異構(gòu)計(jì)算的整體解決方案。”
小結(jié)
芯片性能參數(shù)的提升是最容易感知和理解的產(chǎn)品升級(jí),但這卻不是芯片公司最強(qiáng)大的競(jìng)爭(zhēng)力所在,圍繞芯片構(gòu)建的接口、標(biāo)準(zhǔn)、互聯(lián)技術(shù),以及軟件棧、客戶(hù)認(rèn)可、合作伙伴生態(tài)才是以芯片為核心構(gòu)建競(jìng)爭(zhēng)力公司的終極目標(biāo)。
這也是在 AI 時(shí)代眾多芯片初創(chuàng)公司宣稱(chēng)的算力超越行業(yè)領(lǐng)導(dǎo)者,卻未能獲得大量訂單的關(guān)鍵所在。很好的現(xiàn)象是,已經(jīng)有以燧原為代表的 AI 芯片初創(chuàng)公司,開(kāi)始去強(qiáng)調(diào) AI 算力系統(tǒng)的價(jià)值。