SDN,在經(jīng)歷了猶豫彷徨、百家爭鳴之后,目前已成為企業(yè)CTO的堅定選擇。
SDN時(shí)代的網(wǎng)絡(luò )展現出兩面性:一方面讓客戶(hù)使用更加簡(jiǎn)單,另一方面卻讓運維更加復雜。而當前,整個(gè)行業(yè)的目光多聚焦在前者而忽略了后者。
隨著(zhù)SDN的部署如火如荼,一絲憂(yōu)患也隱隱浮現。2015年12月,管理行業(yè)研究機構EMA(Enterprise Management Associates)針對100多家企業(yè)的調查結果顯示:70%左右的客戶(hù)對于現有管理運維體系是否適用于SDN場(chǎng)景表示擔憂(yōu)。Gartner于2015年7月發(fā)布的通信網(wǎng)絡(luò )技術(shù)成熟度曲線(xiàn)(The Hype Cycle)也顯示,SDN相關(guān)的運維技術(shù)處于泡沫化的底谷期(Trough of Disillusionment),將在2~5年內進(jìn)行大規模商用部署。
華為早在全面擁抱SDN初期,就把SDN運維作為關(guān)鍵課題進(jìn)行研究和實(shí)踐,下面分別從WHY、WHAT、HOW這3個(gè)緯度展示華為對SDN運維的思考。

WHY:SDN運維的新變化
相對于傳統網(wǎng)絡(luò ),SDN時(shí)代的網(wǎng)絡(luò )有如下的特征:
- 動(dòng)態(tài)網(wǎng)絡(luò ):動(dòng)態(tài)是指根據應用需求按需創(chuàng )建和刪除邏輯網(wǎng)絡(luò )。比如某企業(yè)用戶(hù)反饋,在運維中需要投入50%的工作在防火墻的規則上,主要原因是隨著(zhù)應用的變遷,防火墻規則沒(méi)有隨之變遷,造成網(wǎng)絡(luò )沉淀和碎片。
- 實(shí)時(shí)響應:傳統網(wǎng)絡(luò )的設計主要是面向人的界面,基于分鐘級別慢速的原則,比如使用了幾十年的SNMP機制。這種慢速機制,在SDN的快節奏中成為“吐槽”點(diǎn)。某企業(yè)客戶(hù)抱怨其輕載的網(wǎng)絡(luò )存在瞬態(tài)的突發(fā)丟包,懷疑存在毫秒級別的微突發(fā)流量,但是在分鐘級別的SNMP機制下無(wú)法觀(guān)察到,更無(wú)法優(yōu)化。
- 大規模:大規模有兩個(gè)含義,其一是管理的設備數量。從物理網(wǎng)元到邏輯網(wǎng)元vSwitch/vRouter,其數量增加了50倍;其二是處理的故障數量。據LinkedIn披露,從2010年到2015年,需要處理的故障增加了18倍,但管理人員僅增加了幾個(gè)。
要應對上述SDN網(wǎng)絡(luò )的3大問(wèn)題,傳統的“人工運維”方式賢德捉襟見(jiàn)肘、難以為繼。
WHAT:SDN運維內涵
為了滿(mǎn)足SDN下“動(dòng)態(tài)性、實(shí)時(shí)性、大規模”的挑戰,華為提出需要對整個(gè)運維架構進(jìn)行變革,才能讓SDN“管用、好用”。新的SDN運維架構需要圍繞下面幾個(gè)方面打造:
可視化:看得見(jiàn),看得清
俗話(huà)說(shuō)“You Can’t Manage What You Can’t See”。“看得見(jiàn)”有兩個(gè)方面的含義:
- 觀(guān)察對象可視:可監控物理和邏輯對象,包括網(wǎng)元級別的節點(diǎn)和接口等,也包括網(wǎng)絡(luò )級別的鏈路、邏輯路徑和應用質(zhì)量等。
- 觀(guān)察的實(shí)時(shí)性:支持毫秒級別現象的感知(比如流量微突發(fā))、低頻率(<10-4)的丟包,以及大象流和老鼠流的識別等。
- “看得清”意味著(zhù)針對觀(guān)察的準確性,需要采集和分析海量的數據。包括:
- 精確計費:采集的比例需要從8K:1到2K:1,甚至1:1全量采集。
- 疑難問(wèn)題定位:基于采集的“大數據”和實(shí)時(shí)分析,及時(shí)發(fā)現偶發(fā)性丟包和流量黑洞等。
自動(dòng)化:自修復,自?xún)?yōu)化
傳統的網(wǎng)絡(luò )運維架構是一個(gè)單向的系統,而不是一個(gè)負反饋系統。網(wǎng)絡(luò )運維包括兩個(gè)方向:管理員在下行方向配置網(wǎng)絡(luò ),然后通過(guò)上行方向獲得網(wǎng)絡(luò )的狀態(tài),也就是說(shuō),網(wǎng)絡(luò )的部署和狀態(tài)是割裂的,通過(guò)管理員進(jìn)行有限的溝通。這種機制顯然無(wú)法滿(mǎn)足網(wǎng)絡(luò )故障自修復和網(wǎng)絡(luò )自?xún)?yōu)化的需求。自動(dòng)化的運維需要構建“閉環(huán)”運維架構,具體包括:
- 延遲修復:發(fā)現故障后,首先隔離故障,不影響現有業(yè)務(wù)。
- 診斷修復:結合采集的“大數據”和經(jīng)驗數據庫,進(jìn)行自動(dòng)修復或給出明確的修復方案。
- 網(wǎng)絡(luò )優(yōu)化:及時(shí)發(fā)現網(wǎng)絡(luò )存在的“病態(tài)”,如流量不均衡和流量擁塞風(fēng)險等,通過(guò)閉環(huán)系統,由網(wǎng)絡(luò )部署系統自動(dòng)進(jìn)行調整,把故障消滅在萌芽狀態(tài)。
HOW:SDN運維方案
基于SDN下的運維新變化,華為分解了運維的生命周期,構建了“閉環(huán)”的運維負反饋系統,稱(chēng)為Fabric Insight架構,包括如下4個(gè)模塊:
Monitor:監視
為了解決實(shí)時(shí),海量的數據監視,需要在如下兩個(gè)方面改進(jìn)方案:
- 改造采集通道,滿(mǎn)足海量數據上報:對于中規模的數據上報,采用gRPC等高效的采集通道替代SNMP等;對于大規模的數據上報,直接采用數據面基于UDP的采集通道,消除管理面CPU的帶寬限制。
- 改造采集點(diǎn),滿(mǎn)足高頻采集:在數據中心交換機上設計專(zhuān)門(mén)的高頻采集部件,滿(mǎn)足毫秒級的事件采集。
Detector:探測
未來(lái)及時(shí)發(fā)現端到端業(yè)務(wù)路徑的質(zhì)量,需要通過(guò)實(shí)時(shí)發(fā)送探測報的方式,對網(wǎng)絡(luò )進(jìn)行“掃描”。區別于傳統機制的“隨機掃描”,華為結合網(wǎng)絡(luò )的拓撲和路由,支持更精確的“定向掃描”,可以做到真正的全網(wǎng)全覆蓋。基于這種能力,管理員就不再是“救火員”,而是運籌帷幄的“諸葛亮”。
Metrics:度量
在某些情況下,網(wǎng)絡(luò )質(zhì)量顯示正常,但是應用體驗下降。探測機制無(wú)法解決這種問(wèn)題,就需要基于真實(shí)的業(yè)務(wù)流進(jìn)行度量,發(fā)現該業(yè)務(wù)流是否存在丟包和時(shí)延問(wèn)題,如果丟包,丟包位置在哪?如果時(shí)延大,是什么因素造成的?
Diagnosis:診斷
診斷就像老中醫看病,通過(guò)Monitor、Detector和Metrics進(jìn)行“望聞問(wèn)切”后,再結合經(jīng)驗庫的案例,定位出問(wèn)題的根因。診斷部件由一系列的工具組成,每個(gè)工具針對特定的問(wèn)題。比如環(huán)路診斷工具、丟包診斷工具等。
華為秉承開(kāi)放的理念,開(kāi)放基本的運維API,客戶(hù)可自助地開(kāi)放和定制自己的診斷工具集。