(CWW)ChatGPT、AIGC、大模型……一系列眼花繚亂的名詞橫空出世,AI商業(yè)價(jià)值引發(fā)社會(huì)的高度關(guān)注。隨著訓(xùn)練模型規(guī)模的增長,支撐AI算力的數(shù)據(jù)中心網(wǎng)絡(luò)也成為熱點(diǎn)。提升算力效率,構(gòu)建高性能網(wǎng)絡(luò)……大廠們各顯神通,努力在以太產(chǎn)業(yè)宏圖上開辟AI網(wǎng)絡(luò)的“F1新賽道”。
在這場(chǎng)AI的軍備競(jìng)賽中,DDC高調(diào)出鏡,一夜之間似乎成為了構(gòu)建高性能AI網(wǎng)絡(luò)革命性技術(shù)的代名詞。但真如看上去那么美好嗎?讓我們?cè)敿?xì)分析,冷靜判斷。
(資料圖片)
1 始于2019年,DDC的本質(zhì)是以盒盒路由器替代框式路由器
隨著DCN流量的快速增長,DCI網(wǎng)絡(luò)升級(jí)需求日益迫切。然而,DCI路由器框式設(shè)備擴(kuò)容能力受機(jī)框大小限制;同時(shí)設(shè)備功耗大,擴(kuò)容機(jī)框時(shí)對(duì)機(jī)柜電力、散熱等要求較高,改造成本高。在此背景下,2019年AT&T向OCP提交了基于商用芯片的盒式路由器規(guī)范,提出了DDC(Disaggregated Distributed Chassis)的概念。簡單來說,DDC就是使用若干個(gè)低功耗盒式設(shè)備組成的集群替換框式設(shè)備業(yè)務(wù)線卡和網(wǎng)板等硬件單元,盒式設(shè)備間通過線纜互聯(lián)。整個(gè)集群通過集中式或者分布式的NOS(網(wǎng)絡(luò)操作系統(tǒng))管理,以期突破DCI單框設(shè)備性能和功耗瓶頸的問題。
DDC宣稱的優(yōu)勢(shì)包括:
突破框式設(shè)備擴(kuò)容限制:通過多設(shè)備集群實(shí)現(xiàn)擴(kuò)容,不受機(jī)框尺寸限制;
降低單點(diǎn)功耗:多臺(tái)低功耗的盒式設(shè)備分散部署,解決了功耗集中的問題,降低機(jī)柜電力和散熱的要求;
提升帶寬利用率:與傳統(tǒng)的ETH網(wǎng)Hash交換相比,DDC采用信元(Cell)交換,基于Cell進(jìn)行負(fù)載均衡,有助于提升帶寬利用率;
緩解丟包:使用設(shè)備大緩存能力滿足DCI場(chǎng)景高收斂比要求。先通過VOQ(Virtual Output Queue)技術(shù)先將網(wǎng)絡(luò)中接收到的報(bào)文分配到不同的虛擬出隊(duì)列中,再通過Credit通信機(jī)制確定接收端有足夠的緩存空間后再發(fā)送這些報(bào)文,從而減少由于出口擁塞帶來的丟包。
2 DDC方案在DCI場(chǎng)景僅曇花一現(xiàn)
想法看起來很完美,可落地卻并非一帆風(fēng)順。DriveNets公司的Network Cloud產(chǎn)品是業(yè)界第一個(gè)、也是唯一一個(gè)商用的DDC解決方案,整套軟件適配通用白盒路由器。但至今在市面上未見到明確的銷售案例。AT&T作為DDC架構(gòu)方案提出者,在2020年自建的IP骨干網(wǎng)中灰度部署了DDC方案,但后續(xù)也基本沒有多少聲響。為什么這朵水花并沒有掀起多大的浪呢?這應(yīng)該歸咎于DDC存在的四大缺陷。
2.1 缺陷一:不可靠的設(shè)備管控平面
框式設(shè)備各部件通過硬件高度集成、可靠性極高的PCIe總線實(shí)現(xiàn)控制管理面互聯(lián),并設(shè)備都使用雙主控板設(shè)計(jì),確保設(shè)備的管控平面高可靠。DDC則使用“壞了就換”的易損模塊線纜互聯(lián),構(gòu)筑多設(shè)備集群并支撐集群管控平面運(yùn)行。雖突破了框式設(shè)備的規(guī)模,但這種不可靠的互聯(lián)方式給管控面帶來了極大風(fēng)險(xiǎn)。兩臺(tái)設(shè)備堆疊,異常時(shí)會(huì)出現(xiàn)腦裂、表項(xiàng)不同步等問題。對(duì)于DDC這不可靠的管控平面而言,這種問題更容易發(fā)生。
2.2 缺陷二:高度復(fù)雜的設(shè)備NOS
SONiC社區(qū)已有基于VOQ架構(gòu)下的分布式轉(zhuǎn)發(fā)機(jī)框設(shè)計(jì),并持續(xù)迭代補(bǔ)充和修改以便于滿足對(duì)DDC的支持。雖然白盒確實(shí)已經(jīng)有很多落地案例,但“白框”卻少有人挑戰(zhàn)。構(gòu)筑一個(gè)拉遠(yuǎn)的“白框”,不僅僅需要考慮集群內(nèi)多設(shè)備的狀態(tài)、表項(xiàng)信息的同步和管理,還需要考慮到版本升級(jí)、回滾、熱補(bǔ)丁等多個(gè)實(shí)際場(chǎng)景在多設(shè)備下的系統(tǒng)化實(shí)現(xiàn)。DDC對(duì)集群的NOS復(fù)雜度要求指數(shù)級(jí)提升,目前業(yè)界沒有成熟商用案例,存在很大的開發(fā)風(fēng)險(xiǎn)。
2.3 缺陷三:可維護(hù)方案缺失
網(wǎng)絡(luò)是不可靠的,因此ETH網(wǎng)絡(luò)做了大量可維護(hù)和可定位的特性或工具,比如耳熟能詳?shù)腎NT、MOD。這些工具可以對(duì)具體的流進(jìn)行監(jiān)控,識(shí)別丟包的流特征,從而進(jìn)行定位排障。但DDC使用的信元僅是報(bào)文的一個(gè)切片,沒有相關(guān)IP等五元組信息,無法關(guān)聯(lián)到具體的業(yè)務(wù)流。DDC一旦出現(xiàn)丟包問題,當(dāng)前的運(yùn)維手段無法定位到丟包點(diǎn),維護(hù)方案嚴(yán)重缺失。
2.4 缺陷四:成本提升
DDC為突破機(jī)框尺寸限制,需要將集群的各設(shè)備通過高速的線纜/模塊互聯(lián);互聯(lián)成本是遠(yuǎn)高于框式設(shè)備線卡和網(wǎng)板之間通過PCB走線和高速鏈接器互聯(lián),且規(guī)模越大互聯(lián)成本越高。
同時(shí)為降低單點(diǎn)功耗集中,通過線纜/模塊互聯(lián)的DDC集群整體功耗高于框式設(shè)備。相同一代的芯片,假設(shè)DDC集群設(shè)備之間用模塊互聯(lián),集群功耗較框式設(shè)備高30%。
3 拒絕炒剩飯,DDC方案同樣不適用于AI網(wǎng)絡(luò)
DDC方案的不成熟和不完善,在DCI場(chǎng)景上已黯然退場(chǎng)。但當(dāng)前在AI風(fēng)口下竟然死灰復(fù)燃。筆者認(rèn)為,DDC同樣不適用于AI網(wǎng)絡(luò),接下來我們?cè)敿?xì)分析。
3.1 AI網(wǎng)絡(luò)的兩大核心訴求:高吞吐、低時(shí)延
AI網(wǎng)絡(luò)支撐的業(yè)務(wù)其特征是流數(shù)量少,單條流的帶寬大;同時(shí)流量不均勻,經(jīng)常出現(xiàn)多打一或者多打多的情況(All-to-All和All-Reduce)。所以極易出現(xiàn)流量負(fù)載不均、鏈路利用率低、頻繁的流量擁塞導(dǎo)致的丟包等問題,無法充分釋放算力。
3.2 DDC僅解決了Hash問題,同樣帶來眾多缺陷
DDC使用信元交換將報(bào)文切片成Cells,并根據(jù)可達(dá)信息采用輪詢機(jī)制發(fā)送。流量負(fù)載會(huì)較為均衡的分配到每一條鏈路,實(shí)現(xiàn)帶寬的充分利用,并較好解決了Hash問題。但在這個(gè)之外,DDC在AI場(chǎng)景依然存在四大缺陷。
3.2.1 缺陷一:硬件要求特定設(shè)備,封閉專網(wǎng)不通用
DDC架構(gòu)中的信元交換和VOQ技術(shù),均依賴特定硬件芯片實(shí)現(xiàn)。當(dāng)前DCN網(wǎng)絡(luò)設(shè)備均無法利舊使用。ETH網(wǎng)的飛速發(fā)展,得益于其即插即用的便利和通用化、標(biāo)準(zhǔn)化。DCC依賴硬件并通過私有的交換協(xié)議構(gòu)建了一張封閉的專網(wǎng),并不通用。
3.2.2 缺陷二:大緩存設(shè)計(jì)增加網(wǎng)絡(luò)成本,不適合大規(guī)格DCN組網(wǎng)
DDC方案若進(jìn)入DCN,除去高昂的互聯(lián)成本外,還背負(fù)著芯片大緩存的成本負(fù)擔(dān)。DCN網(wǎng)絡(luò)當(dāng)前均使用小緩存設(shè)備,最大僅64M;而源于DCI場(chǎng)景的DDC方案通常芯片的HBM達(dá)到上GB。大規(guī)模的DCN網(wǎng)絡(luò)相較DCI而言,更在意網(wǎng)絡(luò)成本。
3.2.3 缺陷三:網(wǎng)絡(luò)靜態(tài)時(shí)延增加,不匹配AI場(chǎng)景
作為釋放算力的高性能AI網(wǎng)絡(luò),目標(biāo)時(shí)縮短業(yè)務(wù)的完成時(shí)間。DDC的大緩存能力將報(bào)文緩存,勢(shì)必增加硬件轉(zhuǎn)發(fā)靜態(tài)時(shí)延。同時(shí)信元交換,對(duì)報(bào)文的切片、封裝和重組,同樣增加網(wǎng)絡(luò)轉(zhuǎn)發(fā)時(shí)延。通過測(cè)試數(shù)據(jù)比較,DDC較傳統(tǒng)ETH網(wǎng)轉(zhuǎn)發(fā)時(shí)延增大1.4倍。
3.2.4 缺陷四:隨著DC規(guī)模增大,DDC不可靠的問題會(huì)更加劣化
相對(duì)DDC在DCI場(chǎng)景替代框式設(shè)備的場(chǎng)景而言,DDC進(jìn)入DCN需要滿足更大的一個(gè)集群,至少要滿足一個(gè)網(wǎng)絡(luò)POD。這意味著這個(gè)拉遠(yuǎn)的“框“,各個(gè)部件距離更遠(yuǎn)。那么對(duì)于這個(gè)集群的管控平面的可靠性、設(shè)備網(wǎng)絡(luò)NOS的同步管理、網(wǎng)絡(luò)POD級(jí)的運(yùn)維管理要求更高。DDC的各種缺陷將會(huì)裂化。
3.3 DDC最多是個(gè)過渡方案
當(dāng)然,任何問題都不是不能解決的。接受部分約束,對(duì)于這種特定場(chǎng)景,很容易成為各個(gè)大廠“炫技”的舞臺(tái)。網(wǎng)絡(luò)追求可靠、極簡、高效,厭棄復(fù)雜度。特別是當(dāng)前“減員增效”的大背景下,確實(shí)要考慮下DDC落地的代價(jià)。
在AI場(chǎng)景下面對(duì)網(wǎng)絡(luò)負(fù)載分擔(dān)問題,當(dāng)前已經(jīng)有很多案例通過轉(zhuǎn)發(fā)路徑的全局靜態(tài)或動(dòng)態(tài)編排解決,未來也可以通過端側(cè)的網(wǎng)卡基于Packet Spray和亂序重排解決。所以DDC最多是個(gè)短期過渡方案。
4 深度扒一扒,DDC背后的推手
或許是DNX最后說下主流網(wǎng)絡(luò)芯片公司博通(Broadcom),我們較為熟悉的有StrataXGS和StrataDNX兩個(gè)產(chǎn)品系列。XGS延續(xù)高帶寬、低成本的路線,快速推出小緩存、大帶寬的芯片產(chǎn)品,在DCN網(wǎng)絡(luò)占用率持續(xù)獨(dú)占鰲頭。StrataDNX卻背著大緩存的成本,延續(xù)著VOQ+信元交換的神話,期望DDC進(jìn)入DC續(xù)命。北美似乎并無案例,國內(nèi)DDC或許是DNX最后的救命稻草吧。
當(dāng)今GPU等大量硬件設(shè)施在我國已經(jīng)受到一定程度的限制,我們真的需要DDC么?還是多給國產(chǎn)化器件留些機(jī)會(huì)吧!
關(guān)鍵詞: