計算接口高速化
阿姆達爾定律(Amdahl's lesser known law)表明:并行計算中,每1MHz的CPU最大能產(chǎn)生1Mbit/s的IO。因此,一臺有32核2.5GHz的CPU的服務(wù)器,則需要配置100Gb/s的網(wǎng)卡,才能將計算性能充分發(fā)揮出來(lái)。服務(wù)器上行對接100GE接入,400GE核心轉發(fā)成為越來(lái)越清晰的主流網(wǎng)絡(luò )架構。
計算能力并行化
阿姆達爾定律(Amdahl's lesser known law)表明:并行計算中,每1MHz的CPU最大能產(chǎn)生1Mbit/s的IO。因此,一臺有32核2.5GHz的CPU的服務(wù)器,則需要配置100Gb/s的網(wǎng)卡,才能將計算性能充分發(fā)揮出來(lái)。服務(wù)器上行對接100GE接入,400GE核心轉發(fā)成為越來(lái)越清晰的主流網(wǎng)絡(luò )架構。
計算能力并行化
并行化是解決應用性能擴展的成功實(shí)踐。隨著(zhù)用戶(hù)數和數據規模增大,并行化程度越來(lái)越高。據Facebook統計【2】,用戶(hù)在朋友圈一個(gè)“點(diǎn)贊”動(dòng)作,會(huì )發(fā)起到數據中心1KB的HTTP請求,在數據中心內部,則放大為930KB的并行操作,包括88次Cache查找(648KB),35次數據庫查找(25.6KB)和392次后端RPC調用(257KB)。計算并行化,使得DCN內部流量(東西向)千倍增大,加劇網(wǎng)絡(luò )擁塞,增加了通信時(shí)間,降低計算效率,智能無(wú)損網(wǎng)絡(luò )的出現,是大勢所趨。
計算資源虛擬化
計算資源虛擬化
1998年,Greene(VMWARE創(chuàng )始人)等發(fā)明了服務(wù)器虛擬化技術(shù),通過(guò)把一個(gè)物理服務(wù)器虛擬為多個(gè)虛擬機,將計算資源的平均利用率從10%提升到30%;而近幾年新興的容器技術(shù)(如Docker,Kata,Unikernel),通過(guò)更輕量化的虛擬層技術(shù),進(jìn)一步提升計算資源的利用率。計算虛擬化帶來(lái)的動(dòng)態(tài)性,徹底改變了人管理網(wǎng)絡(luò )的方式,驅動(dòng)網(wǎng)絡(luò )邁向自動(dòng)駕駛。
計算領(lǐng)域的三大方向,引領(lǐng)DCN發(fā)展趨勢,向400G智能無(wú)損的自動(dòng)駕駛網(wǎng)絡(luò )邁進(jìn)。
400GE DCN網(wǎng)絡(luò )
迎接計算節點(diǎn)100GE接口浪潮
處理器多核化以及AI處理器的普及, IO帶寬需求大幅增加。總線(xiàn)技術(shù)的發(fā)展,部分緩解了計算的IO瓶頸。2020年,PCIe 4.0@16GT/s開(kāi)始商用,IO帶寬達到50G~100G/200G;2021年,PCIe5.0@32GT/s芯片也將發(fā)布,IO帶寬達到100G~400G。
網(wǎng)卡的速率成為提升IO能力的又一關(guān)鍵。網(wǎng)卡從10GE演進(jìn)到25GE,并快速推進(jìn)到100GE。配置100GE網(wǎng)卡的服務(wù)器在2020年快速起量,成為主流。根據分析師機構CREHAN的預測,在2020年, 100GE網(wǎng)卡的發(fā)貨量將超越50GE網(wǎng)卡,成為業(yè)界對25GE網(wǎng)卡下一代的選擇;

基于成本、功耗和生態(tài)考慮,DCN或將跳過(guò)200G,直接演進(jìn)到400G。從歷史實(shí)踐看,服務(wù)器網(wǎng)卡和網(wǎng)絡(luò )速率之比為1:4,即25G網(wǎng)卡對應100G網(wǎng)絡(luò ),100G網(wǎng)卡對應400G網(wǎng)絡(luò );從光模塊架構看,200G和400G都采用4-lane架構,PAM4調制方式,成本和功耗趨同,導致400G每比特成本相比200G降低一倍;從光模塊生態(tài)看,400G模塊種類(lèi)豐富,給客戶(hù)更多的選擇;目前,200G的模塊種類(lèi)只有100m SR4和2km FR4兩種;400G的模塊種類(lèi)達到了5種,涵蓋100m、500m和2km。
華為在2019年初已經(jīng)發(fā)布了業(yè)界首款面向AI時(shí)代的數據中心交換機CloudEngine 16800,支持業(yè)界最高密度的48*400GE端口/每槽位,業(yè)界的5倍,為100G服務(wù)器接入,400G數據中心網(wǎng)絡(luò )做好了充分的準備。
計算能力并行化
驅動(dòng)DCN向智能無(wú)損網(wǎng)絡(luò )演進(jìn)
隨著(zhù)計算規模增大,通信占比持續增大,抵消了規模增長(cháng)帶來(lái)的收益,造成集群性能的負增長(cháng)。如圖所示【3】,Netflix的分布式電影評分推薦系統中,當計算規模達到90臺,出現拐點(diǎn),計算效率不升反降。

為了降低通信占比,降低應用等待時(shí)間,增大網(wǎng)絡(luò )規模,無(wú)損網(wǎng)絡(luò )是必經(jīng)之路。
眾所周知,應用之間通信需求是無(wú)損的。有兩種實(shí)現方式:
(1)無(wú)損協(xié)議+有損網(wǎng)絡(luò ):
在10G網(wǎng)卡時(shí)代,一般采用這種方式,即網(wǎng)絡(luò )可以在擁塞時(shí)丟包,在協(xié)議層進(jìn)行補救,如在TCP協(xié)議上部署重傳機制,在發(fā)現網(wǎng)絡(luò )丟包后,進(jìn)行重傳。
(2)有損協(xié)議+無(wú)損網(wǎng)絡(luò ):
進(jìn)入到25G/100G網(wǎng)卡時(shí)代, 采用網(wǎng)卡硬化協(xié)議棧,解決對CPU的消耗。為了硬化協(xié)議棧,只能簡(jiǎn)化協(xié)議,從而依賴(lài)無(wú)損網(wǎng)絡(luò )。據測算,要吞吐25G~100G的數據,要消耗服務(wù)器10%~30%左右的CPU;為了解決此問(wèn)題,需要在智能網(wǎng)卡上硬化協(xié)議,硬化帶來(lái)的好處是高性能,但也會(huì )喪失協(xié)議的靈活性。業(yè)界采用RDMA協(xié)議,替代復雜的TCP, 便于網(wǎng)卡的硬化。RDMA協(xié)議對丟包極其敏感,2%的丟包就會(huì )造成網(wǎng)絡(luò )有效吞吐降到0。所以,無(wú)損網(wǎng)絡(luò )成為DCN的基本特征。
從TCP誕生之初,是為Internet設計的,考慮的是低速的,長(cháng)距(數百公里)的網(wǎng)絡(luò ),圍繞流量控制技術(shù),出現了大量的創(chuàng )新。在進(jìn)入到400G DCN時(shí)代,環(huán)境發(fā)生了巨大的變化,從Internet的慢速鏈路到DCN 400G高速鏈路, 從數百公里的長(cháng)距Internet到百米的DCN網(wǎng)絡(luò ),從全互聯(lián)的流量模型到Incast突發(fā)流量模型, TCP已經(jīng)不能適用這種變化,需要對流量控制技術(shù)在協(xié)議和網(wǎng)絡(luò )上重新定義,RDMA協(xié)議替代TCP,將成為必然。
擁塞控制,是通過(guò)網(wǎng)絡(luò )和端點(diǎn)協(xié)作,控制入網(wǎng)流量速率,使得入網(wǎng)流量和網(wǎng)絡(luò )帶寬匹配,滿(mǎn)而不溢。網(wǎng)絡(luò )擁塞通知的準確性,對網(wǎng)絡(luò )利用率影響很大。過(guò)早擁塞通知,將導致計算側過(guò)度減速,網(wǎng)絡(luò )利用率低。過(guò)晚?yè)砣ㄖ瑢е戮W(wǎng)絡(luò )過(guò)載,導致丟包。通過(guò)AI算法,預測流量模型,準確的通知計算側,控制入網(wǎng)流量。
更進(jìn)一步,網(wǎng)絡(luò )基于準確的活躍流統計,為每條流分配合適的速率,避免計算節點(diǎn)之間探測式發(fā)送,減少突發(fā),從而減少網(wǎng)絡(luò )的抖動(dòng)。這種基于Credit的擁塞機制,特別適合存儲等低抖動(dòng)網(wǎng)絡(luò )上。
在并行計算中, 存在木桶效應,即最長(cháng)完成的流,決定整個(gè)任務(wù)的完成時(shí)間。所以,對不同的流進(jìn)行差異化的調度,降低整個(gè)任務(wù)的完成時(shí)間。在關(guān)鍵流或者co-flow識別上, AI算法,可以發(fā)揮出重要的作用。
在大規模并行計算場(chǎng)景下,讓網(wǎng)絡(luò )深度參與到計算通信過(guò)程中,從而減少通信量和時(shí)間,提升應用性能,稱(chēng)為在網(wǎng)計算。
我們知道,并行計算下,多端點(diǎn)之間的通信是全互聯(lián)的關(guān)系,通信量存在N平方問(wèn)題。造成隨著(zhù)計算規模增大,計算性能下降,在網(wǎng)計算的思路是把網(wǎng)絡(luò )作為中間節點(diǎn),參與到計算參數過(guò)程中,即把部分計算的功能部署到網(wǎng)絡(luò )上。這樣,通信的復雜度從O(2(n-1))降為O(1);也就是消除計算規模增大的性能拐點(diǎn)。
在網(wǎng)計算,需要通信層和網(wǎng)絡(luò )協(xié)作,主流的并行計算通信層包括MPI和NCCL兩種,所以網(wǎng)絡(luò )也需要分別適配這兩種通信層。
華為提出業(yè)界首創(chuàng )的智能無(wú)損DCN,基于內置的AI芯片和智能無(wú)損的iLossless調度算法,重定義流量控制技術(shù),重分布網(wǎng)絡(luò )計算功能, 100%釋放算力。作為業(yè)界唯一的0丟包的以太網(wǎng),經(jīng)過(guò)第三方Tolly的權威認證,在計算和存儲場(chǎng)景,要比業(yè)界其他廠(chǎng)商的交換機提升30%的應用性能。
計算虛擬化深入發(fā)展
驅動(dòng)DCN從SDN邁向自動(dòng)駕駛
- 計算虛擬化,打破了服務(wù)器物理邊界,計算資源可根據需求動(dòng)態(tài)伸縮。SDN的出現,是為了解決網(wǎng)絡(luò )隨計算而動(dòng)的問(wèn)題,即根據計算資源位置的變化,由SDN控制器動(dòng)態(tài)為其構建一張邏輯網(wǎng)絡(luò ),稱(chēng)為部署自動(dòng)化。
- 部署自動(dòng)化階段,由原來(lái)的人-機接口,演進(jìn)到機-機接口,配置效率百倍提升,從小時(shí)級到分鐘級。
- 部署自動(dòng)化的第一步是簡(jiǎn)化;如果在復雜的網(wǎng)絡(luò )環(huán)境下部署自動(dòng)化,會(huì )適得其反,讓事情變得更復雜。因為需要匹配各種組網(wǎng),梳理復雜的依賴(lài)關(guān)系,應對各種流量模型。業(yè)界在SDN的實(shí)踐中也走過(guò)彎路,最終,遵循簡(jiǎn)化優(yōu)選的原則,網(wǎng)絡(luò )拓撲簡(jiǎn)化為L(cháng)eaf/Spine,轉發(fā)簡(jiǎn)化為VXLAN,協(xié)議簡(jiǎn)化為BGP-EVPN,網(wǎng)關(guān)簡(jiǎn)化為多活網(wǎng)關(guān),為自動(dòng)化打下堅實(shí)基礎。
- 部署自動(dòng)化的第二步是標準化;特別是SDN北向接口的標準化,讓網(wǎng)絡(luò )融入到云計算的生態(tài)中。Openstack云平臺成為主流,使得Neutron成為事實(shí)標準,加速SDN生態(tài)的成熟。
- 部署自動(dòng)化,一方面帶來(lái)百倍的部署效率提升,另一方面,也帶來(lái)兩大副作用:
高頻度變更,使得配置錯誤存在放大效應
傳統網(wǎng)絡(luò )以天計的變更頻度,讓管理員有充裕的時(shí)間進(jìn)行檢查。但SDN以分鐘計的高頻變更,讓一個(gè)小小的配置錯誤,都放大數百倍,成為潛在的隱患。據谷歌披露【4】,數據中心網(wǎng)絡(luò )中68%的故障是由于網(wǎng)絡(luò )變更造成的。網(wǎng)絡(luò )驗證技術(shù),在配置生效前,校驗配置面的錯誤、沖突以及數據面的環(huán)路和黑洞等,可提前消除配置風(fēng)險。
高頻度變更,把壓縮運維時(shí)間到分鐘級
當網(wǎng)絡(luò )瞬息萬(wàn)變,傳統靜態(tài)網(wǎng)絡(luò )的運維方式都將失效。如何在幾分鐘之內,完成故障檢測,定位和恢復,成為核心需求。
智能運維,基于海量數據采集和AI預測算法,提前預測故障,像扁鵲大哥一樣,在病情發(fā)作前,提前發(fā)現,并下藥鏟除。當故障發(fā)生時(shí), 采用融入專(zhuān)家經(jīng)驗的知識圖譜, 撥開(kāi)各種表面現象,找到根因,為故障恢復提供依據。
自動(dòng)駕駛網(wǎng)絡(luò ),除了部署和運維的自動(dòng)化,還包括規劃自動(dòng)化,建設自動(dòng)化和網(wǎng)絡(luò )自?xún)?yōu)化,即“規建維優(yōu)”全生命周期自動(dòng)化。
如自動(dòng)駕駛汽車(chē),自動(dòng)駕駛網(wǎng)絡(luò )根據自動(dòng)化程度也分為5級,華為CloudFabric數據中心網(wǎng)絡(luò )的自動(dòng)駕駛能力已經(jīng)演進(jìn)到L3級,即釋放運維人員的手。未來(lái)會(huì )走向L4高度自治和L5完全自治網(wǎng)絡(luò ),釋放運維人員的眼和腦。走向L5的自動(dòng)駕駛,還有很長(cháng)的路要走,需要業(yè)界同仁的共同努力。
AI是使能器
支撐DCN向智能無(wú)損和自動(dòng)駕駛網(wǎng)絡(luò )演進(jìn)
無(wú)論是智能無(wú)損還是自動(dòng)駕駛網(wǎng)絡(luò ),它的最終實(shí)現和落地離不開(kāi)AI技術(shù)應用。沒(méi)有AI算法的支撐,自動(dòng)駕駛網(wǎng)絡(luò )和智能無(wú)損將是空中樓閣。AI算法在語(yǔ)音、語(yǔ)言處理、圖像等領(lǐng)域獲得了巨大的成功,將AI技術(shù)和網(wǎng)絡(luò )結合,也將使得網(wǎng)絡(luò )煥發(fā)青春。
如下圖所示, 在識別、預測、調優(yōu)和質(zhì)量評估等方面, 學(xué)術(shù)界和工業(yè)界都投入了巨大的研究熱情,也初顯成效。

華為正在攜手學(xué)術(shù)界和工業(yè)界, 持續挖掘AI能力, 和網(wǎng)絡(luò )技術(shù)充分結合,持續提升計算效率,一起邁向全新的DCN時(shí)代。