1、AI驅動(dòng)數據中心重構
數據中心網(wǎng)絡(luò )面臨新挑戰
企業(yè)智能化升級驅動(dòng)數據中心從云時(shí)代邁入了智能時(shí)代。相比而言,云數據中心更像是個(gè)業(yè)務(wù)支撐中心,以應用為中心,通過(guò)云平臺實(shí)現IT資源的快速發(fā)放。而AI數據中心在云數據中心基礎上真正演進(jìn)成為商業(yè)價(jià)值中心,以數據為中心,聚焦于如何基于A(yíng)I對數據進(jìn)行高效處理。

AI 驅動(dòng)數據中心重構
眾所周知,AI高效運行依賴(lài)巨大算力支撐,比如一次普通的語(yǔ)音識別的AI訓練涉及到20E(1E=1018)次的浮點(diǎn)計算,即便用全世界最高性能的超級計算機來(lái)計算,也需要較長(cháng)的時(shí)間。
AI的算力訴求驅動(dòng)數據中心架構重塑。數據中心正走向以全閃存存儲數據湖為核心,以 GPU/AI多樣化計算為算力底座的智能時(shí)代數據中心新架構。存儲和計算設施正在發(fā)生顛覆性的變革:全閃存化存儲介質(zhì)使得存儲性能提升百倍,GPU/AI智能計算使得計算性能提升百倍。
如果說(shuō)單個(gè)服務(wù)器的運行效率通過(guò)提升處理器和存儲介質(zhì)的性能來(lái)獲得,而整個(gè)數據中心的運行效率則取決于數據中心網(wǎng)絡(luò )的性能。數據中心網(wǎng)絡(luò )已經(jīng)成為智能時(shí)代數據中心算力釋放,數據價(jià)值變現的核心關(guān)鍵。同時(shí)AI作為智能時(shí)代的使能技術(shù),如何進(jìn)一步幫助數據中心網(wǎng)絡(luò )自身完成智能升級,提升部署運維效率,成為新的機遇和挑戰。
2、CloudFabric
面向AI智能時(shí)代全新升級
作為企業(yè)數據金礦的煉金術(shù),AI點(diǎn)石成金,成為企業(yè)數字化轉型到智能升級成敗的關(guān)鍵。而AI技術(shù)的大量使用,驅動(dòng)企業(yè)數據中心使命發(fā)生顛覆性變革。值此AI技術(shù)正在廣泛應用于數據中心之際,為了幫助客戶(hù)更好地應對新挑戰,華為對CloudFabric數據中心網(wǎng)絡(luò )解決方案進(jìn)行全新升級。
全球最高密400GE
打通進(jìn)入智能時(shí)代康莊大道
企業(yè)數字化帶來(lái)全球每年產(chǎn)生數據量暴增,據華為GIV預測預計2025年將達到 180ZB,10年增加20倍。當前100GE的數據中心網(wǎng)絡(luò )已經(jīng)無(wú)法應對未來(lái)幾年的數字洪水挑戰,同時(shí)從業(yè)界主流的AI業(yè)務(wù)服務(wù)器來(lái)看100GE網(wǎng)卡接口已經(jīng)成為標配,數據中心網(wǎng)絡(luò )400GE時(shí)代已經(jīng)來(lái)臨。
2019年,華為發(fā)布的業(yè)界首款面向AI智能時(shí)代的數據中心交換機CloudEngine 16800,全面升級了硬件交換平臺,在正交架構基礎上,突破超高速信號傳輸、超強散熱、高效供電等多項技術(shù)難題,使得單槽位可提供業(yè)界最高密度48端口400GE線(xiàn)卡,單機提供業(yè)界最大的768端口400GE交換容量,交換能力達到業(yè)界的5倍,輕松應對AI智能時(shí)代流量倍增需求。

CloudEngine 16800 數據中心交換機
業(yè)界首個(gè)0丟包以太網(wǎng)
釋放智能時(shí)代算力巔峰
智能時(shí)代的核心就是引入AI挖掘數據價(jià)值,以深度學(xué)習為特征的AI計算依賴(lài)海量的數據的輸入,數據的存取速度將直接影響算力的發(fā)揮。計算和存儲的性能百倍提升導致傳統網(wǎng)絡(luò )的擁塞易丟包帶來(lái)的網(wǎng)絡(luò )瓶頸問(wèn)題開(kāi)始突顯。1‰的丟包在A(yíng)I時(shí)代會(huì )直接導致算力下降接近 50%。而隨著(zhù)業(yè)務(wù)負載增加和分布式計算流量的增多,網(wǎng)絡(luò )丟包問(wèn)題將更為嚴重。AI數據中心一方面算力貴,算力缺成為時(shí)代挑戰,而另一方面由于網(wǎng)絡(luò )瓶頸問(wèn)題導致昂貴的算力無(wú)法充分釋放。如何構建一個(gè)0丟包的無(wú)損數據中心網(wǎng)絡(luò )成為面向智能時(shí)代的數據中心網(wǎng)絡(luò )的基本要求。
華為CloudEngine 16800通過(guò)獨創(chuàng )的 iLossLess智能無(wú)損交換算法,實(shí)現流量模型自適應自?xún)?yōu)化。基于CloudEngine交換機構筑的智能無(wú)損DCN,真正實(shí)現以太網(wǎng)絡(luò )0丟包,全面釋放AI算力潛能。根據權威第三方測試機構Tolly測試,在同樣GPU集群下,通過(guò)采用華為智能無(wú)損DCN,AI業(yè)務(wù)的訓練效率比采用當前業(yè)界其他網(wǎng)絡(luò )提升27%以上。

華為智能無(wú)損 DCN
華為智能無(wú)損DCN目前已經(jīng)應用于代表全球算力巔峰的AI訓練集群Atlas900中,成為其突破性能瓶頸沖擊世界紀錄的關(guān)鍵助推器。智能無(wú)損DCN不僅僅是面向AI訓練集群的高性能網(wǎng)絡(luò ),更是代表面向智能時(shí)代數據中心的新一代網(wǎng)絡(luò )新架構。
率先實(shí)現網(wǎng)絡(luò )全智能
邁向自治自愈的自動(dòng)駕駛
數據中心的規模越來(lái)越大,結構越來(lái)越復雜,有些數據中心OPEX支出甚至超過(guò)為CAPEX的三倍,數據中心的效率和成本面臨結構性挑戰,即便采用當前主流的SDN實(shí)現網(wǎng)絡(luò )的自動(dòng)部署,但是在業(yè)務(wù)意圖理解,網(wǎng)絡(luò )日常巡檢,故障定位修復等方面,仍然依賴(lài)管理員。
華為首先提出自動(dòng)駕駛網(wǎng)絡(luò )的理念,在SDN網(wǎng)絡(luò )架構基礎上,針對網(wǎng)絡(luò )設備、網(wǎng)絡(luò )管理控制及上層業(yè)務(wù)編排系統,在規劃、部署、運行、維護、優(yōu)化和經(jīng)營(yíng)的端到端過(guò)程中引入AI技術(shù)。通過(guò)AI技術(shù)使得網(wǎng)絡(luò )從自動(dòng)化業(yè)務(wù)部署和動(dòng)作執行,走向智能化的故障自愈,網(wǎng)絡(luò )自我優(yōu)化,最終實(shí)現網(wǎng)絡(luò )自治自愈和無(wú)人值守。
AI加持的全智能數據中心網(wǎng)絡(luò )CloudFabric目前已經(jīng)可以初步實(shí)現“智能理解業(yè)務(wù)意圖、智能選取最佳網(wǎng)絡(luò )路徑、智能評估變更風(fēng)險、智能檢測故障和快速定位根因”,針對75類(lèi)常見(jiàn)故障,可以做到1分鐘感知故障、3分鐘定位故障、5分鐘修復故障,率先在數據中心網(wǎng)絡(luò )領(lǐng)域實(shí)現業(yè)界首個(gè)L3級自動(dòng)駕駛網(wǎng)絡(luò ),并獲得Tolly第三方權威機構的認證。
3、全新CloudFabric
引領(lǐng)數據中心網(wǎng)絡(luò )進(jìn)入智能時(shí)代
大約2000年左右,隨著(zhù)企業(yè)信息化戰略的發(fā)展推進(jìn),真正的企業(yè)數據中心誕生。2010年左右企業(yè)數字化戰略提出,云計算方興未艾之際華為率先發(fā)布業(yè)界首個(gè)云數據中心網(wǎng)絡(luò )CloudFabric,引領(lǐng)數據中心進(jìn)入云時(shí)代,實(shí)現 IT資源的彈性擴縮和自動(dòng)發(fā)放。
當前企業(yè)數字化轉型進(jìn)入智能化升級新階段,AI 正在廣泛應用于數據中心之際,華為對CloudFabric進(jìn)行全新升級。CloudFabric不僅率先完成數據中心網(wǎng)絡(luò )自身的全智能化,實(shí)現了業(yè)界首個(gè)L3級的自動(dòng)駕駛網(wǎng)絡(luò ),更通過(guò)全球最高密400GE的CloudEngine交換機和獨創(chuàng )iLossless算法,實(shí)現業(yè)界唯一的0丟包智能無(wú)損DCN,釋放智能時(shí)代AI算力巔峰,讓AI業(yè)務(wù)運行更高效,讓數據價(jià)值商業(yè)變現更充分,再一次引領(lǐng)數據中心網(wǎng)絡(luò )進(jìn)入智能時(shí)代。