【資料圖】
(CWW)近日,在“2023中國信通院ICT+深度觀察報告會”算網(wǎng)融合發(fā)展論壇上,NVIDIA網(wǎng)絡(luò)事業(yè)部高級總監(jiān)宋慶春聚焦網(wǎng)卡計算、交換機計算、性能隔離等話題,探討了網(wǎng)絡(luò)計算技術(shù)如何實現(xiàn)高效節(jié)能、安全低耗、高性能業(yè)務(wù)加速、網(wǎng)絡(luò)極限突破。
宋慶春指出,當前數(shù)據(jù)中心異構(gòu)算力需求正在不斷提升,主要包括三個方面,一是HPC高性能業(yè)務(wù)不斷增長;二是AI應(yīng)用對算力需求正在不斷提升,包括大規(guī)模訓(xùn)練、推薦、推理系統(tǒng)等均需要大規(guī)模算力支撐;三是數(shù)字孿生、元宇宙等技術(shù)發(fā)展,對高性能、AI算力需求快速增長。多種異構(gòu)算力需求場景的涌現(xiàn)也對數(shù)據(jù)中心算力基礎(chǔ)設(shè)施發(fā)展帶來巨大挑戰(zhàn),用戶一方面需要算力平臺提供高可靠的算力性能,另一方面又希望算力平臺的功耗維持在較低水平。
“在傳統(tǒng)計算架構(gòu)中,CPU要參與到除加速計算外的所有事情,容易產(chǎn)生系統(tǒng)性能瓶頸,在性能和能耗間難以實現(xiàn)協(xié)同提升?!彼螒c春講道。對此,他認為云原生超級計算架構(gòu)能夠有效平衡性能提升和節(jié)能減排,是未來數(shù)據(jù)中心計算架構(gòu)的重要方向。
宋慶春表示,云原生超級計算架構(gòu)的核心是將原先由CPU執(zhí)行的操作卸載到DPU上,將存儲、計算框架等管理平面上的操作同樣卸載到DPU上,釋放CPU、GPU資源,使CPU、GPU能夠更加集中的處理業(yè)務(wù),DPU上的算力也可實現(xiàn)算力共享,最終確保CPU、DPU、加速器和網(wǎng)絡(luò)協(xié)同工作,數(shù)據(jù)在哪里,計算就在哪里,由此形成更高性能、更環(huán)保、更安全的計算平臺。
最后,宋慶春總結(jié)道,NVIDIA將持續(xù)關(guān)注網(wǎng)絡(luò)異構(gòu)計算的發(fā)展,為用戶提供高性能、低功耗的計算、存儲及網(wǎng)絡(luò)產(chǎn)品,提供高品質(zhì)的云原生超級計算架構(gòu),促進數(shù)據(jù)中心異構(gòu)計算向前發(fā)展。
關(guān)鍵詞: NVIDIA 網(wǎng)絡(luò)異構(gòu)計算 網(wǎng)卡計算