• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 文章精選 >
     首頁(yè) > 新聞 > 文章精選 >

    云計算時(shí)代、如何實(shí)現智能化網(wǎng)絡(luò )運維?

    2017-08-15 09:50:35   作者:華為質(zhì)量流程與IT管理部數據中心網(wǎng)絡(luò )運維專(zhuān)家 孫蓉樺   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      自2014年開(kāi)啟云化轉型之路以來(lái),華為私有云規模呈指數級增長(cháng),用戶(hù)遍布全球各個(gè)角落,承載的業(yè)務(wù)形態(tài)也日益多樣,包括了辦公、生產(chǎn)、電商、開(kāi)發(fā)和測試等;與此同時(shí),云數據中心網(wǎng)絡(luò )設備每年則以50%的速度激增,目前已超過(guò)20000臺,分布在全球數十個(gè)數據中心里。
      每年,華為內部網(wǎng)絡(luò )配置的變化量高達50萬(wàn)行,還要應對數據中心搬遷以及設備替換等這樣需要在短時(shí)間內進(jìn)行大批量策略調整的工作;每年的版本/補丁升級、設備替換、配置優(yōu)化以及應急演練等變更操作超過(guò)500次。如此巨大的工作強度之下,網(wǎng)絡(luò )運維人員卻只有區區10人,這是如何做到的呢?云計算時(shí)代,在業(yè)務(wù)快速增長(cháng)的前提下,又如何才能在不增加運維人員的同時(shí)保持IT系統99.999%可用性?
      從運維的角度看云數據中心網(wǎng)絡(luò )
      隨著(zhù)云計算的不斷發(fā)展,云數據中心網(wǎng)絡(luò )顯現出4個(gè)特征:服務(wù)化、自動(dòng)化、虛擬化和智能化。服務(wù)化將網(wǎng)絡(luò )包裝成服務(wù),服務(wù)可以按需自助、彈性擴展資源;自動(dòng)化可以實(shí)現網(wǎng)絡(luò )自動(dòng)部署、策略隨云而動(dòng);虛擬化通過(guò)SDN和NFV將網(wǎng)絡(luò )Underlay和Overlay分離;智能化則是指資源統一管理、網(wǎng)絡(luò )智能可視。這4大特征有效地支撐了云業(yè)務(wù)的快速、靈活和彈性,但是其發(fā)展卻并不均衡——面向用戶(hù)的特性往往優(yōu)先于面向運維的,所以,網(wǎng)絡(luò )在快速云化的同時(shí),也給運維帶來(lái)了很大挑戰。
    • 網(wǎng)絡(luò )設備數量不斷增長(cháng),但是運維人力有限;
    • 網(wǎng)絡(luò )運維自動(dòng)化程度低,仍延續“人拉肩扛”的方式;
    • 網(wǎng)絡(luò )的復雜性不斷增加,對管理員的技能要求高,可用性保障困難;
    • 網(wǎng)絡(luò )監控廣度和深度不足,但告警信息卻又太多,關(guān)鍵告警被淹沒(méi)。
      網(wǎng)絡(luò )運維能力不僅意味著(zhù)保障可用性,還包括如何有效提升運維效率、提高服務(wù)水平,給用戶(hù)提供低成本、高效率和高質(zhì)量的網(wǎng)絡(luò )服務(wù)。網(wǎng)絡(luò )運維能力是云數據中心網(wǎng)絡(luò )的核心競爭力之一,未來(lái),網(wǎng)絡(luò )運維的發(fā)展方向在于逐步實(shí)現自動(dòng)化、智能化和無(wú)人值守,這其中,如何構建智能化網(wǎng)絡(luò )運維平臺是關(guān)鍵。
      每年,華為內部網(wǎng)絡(luò )配置的變化量高達50萬(wàn)行,變更操作超過(guò)500次,網(wǎng)絡(luò )運維人員卻只有區區10人,如此巨大的工作強度是如何做到的?構建智能化網(wǎng)絡(luò )運維平臺是關(guān)鍵。
      構建智能化網(wǎng)絡(luò )運維平臺
      智能化網(wǎng)絡(luò )運維平臺主要瞄準4個(gè)目標:秒級故障定位、分鐘級故障隔離與自愈、網(wǎng)絡(luò )質(zhì)量可預測與可優(yōu)化,以及全生命周期運維自動(dòng)化。
      華為規劃的智能化網(wǎng)絡(luò )運維平臺(見(jiàn)下圖)由網(wǎng)絡(luò )監控平臺、網(wǎng)絡(luò )智能分析平臺和網(wǎng)絡(luò )自動(dòng)化平臺這3大平臺組成,平臺間相互協(xié)同形成一個(gè)閉環(huán)自制的網(wǎng)絡(luò )運維系統,最終實(shí)現無(wú)人值守的目標。
      相對于傳統的運維平臺,智能化網(wǎng)絡(luò )運維平臺有3個(gè)明顯的特性:
      閉環(huán)的自動(dòng)化平臺
      傳統的網(wǎng)絡(luò )運維平臺有很多平臺和工具,他們各自工作、相互獨立。而網(wǎng)絡(luò )智能平臺首先是一個(gè)開(kāi)放的平臺,網(wǎng)絡(luò )設備從添加到監控、從信息采集和分析到告警及自愈,都能實(shí)現閉環(huán)的自動(dòng)化處理。
      大數據平臺
    • 云數據中心網(wǎng)絡(luò )的網(wǎng)元數量呈指數級增長(cháng),使得監控信息也海量增長(cháng)。以華為IT云數據中心網(wǎng)絡(luò )監控為例,2014年監控的網(wǎng)絡(luò )指標不到40000個(gè),到2017年已發(fā)展到上千萬(wàn)個(gè),這對監控采集系統以及數據平臺都是一個(gè)很大的挑戰。
    • 網(wǎng)絡(luò )監控的深度、廣度和頻度極大提升,采集的信息更加精準有效。監控以前是只抓重點(diǎn),現在則是盡可能多采集信息。事實(shí)也證明,信息越多,監控和分析就越有效。以監控頻度為例,如果將網(wǎng)絡(luò )流量的監控頻度由300秒/次調整到10秒/次,就會(huì )發(fā)現監控流量的峰值由1.29Gbps變成了8.3Gbps,是原來(lái)的6倍,也能發(fā)現很多原來(lái)隱藏的問(wèn)題。
    • 所有監控數據不再是孤立的存在,多個(gè)采集系統之間的數據可以集成,以進(jìn)行關(guān)聯(lián)分析。以前的監控數據存放在不同的網(wǎng)管工具中,SNMP、LOG等監控都各自為政。現在所有的監控數據都統一匯總到數據平臺,可以從時(shí)間、設備等維度拉通進(jìn)行分析。
      智能分析平臺
    • 故障預測能力。傳統網(wǎng)管更多提到的是監控,但是否能在故障發(fā)生之前就知道哪里即將發(fā)生問(wèn)題并提前處理掉?現在不少互聯(lián)網(wǎng)企業(yè)已經(jīng)具備了硬盤(pán)的故障預測能力,準確率達到90%以上。對于網(wǎng)絡(luò )來(lái)說(shuō),也有光模塊這種易耗件,以及不可預知的業(yè)務(wù)增長(cháng)和突發(fā),那么是否也能實(shí)現精準預測?
    • 關(guān)聯(lián)分析能力。華為在2014年的網(wǎng)絡(luò )監控指標還不到40000個(gè),每日告警大約40個(gè),如果不進(jìn)行優(yōu)化,當2017年監控指標達到1000萬(wàn)個(gè),告警按比例會(huì )達到10000個(gè)。沒(méi)有關(guān)聯(lián)分析能力,海量監控就會(huì )是一個(gè)災難。
    • 故障分析能力。Google認為“任何需要人工操作的事情都只會(huì )延長(cháng)恢復時(shí)間。”故障自愈的前提就是故障分析能力,而大數據使得故障分析更加簡(jiǎn)單。以二層環(huán)路問(wèn)題為例,其人工定位并不復雜。以前,華為嘗試通過(guò)專(zhuān)家系統來(lái)實(shí)現自動(dòng)定位,當出現問(wèn)題后,工具需要登錄設備采集信息進(jìn)行判斷,但由于工具并不知道網(wǎng)絡(luò )架構和組網(wǎng),實(shí)現起來(lái)非常復雜,效率較低且準確性不高;而現在,通過(guò)采集所有設備的接口信息,只需要基于二層環(huán)路的指標特征進(jìn)行統計分析,就能快速找到引起環(huán)路的問(wèn)題點(diǎn),實(shí)現也變得非常簡(jiǎn)單,而且可以實(shí)時(shí)監控。
    • 業(yè)務(wù)分析能力。云的資源池跨越多個(gè)DC,如果能夠基于業(yè)務(wù)和應用進(jìn)行智能分析,就可以知道應用與虛擬機之間的訪(fǎng)問(wèn)頻率和流量模型,從而將關(guān)聯(lián)最密切的資源就近部署,提升應用性能的同時(shí)節省網(wǎng)絡(luò )資源。業(yè)務(wù)分析能力不僅在資源調度方面,在安全策略智能推薦、應用關(guān)聯(lián)分析、業(yè)務(wù)影響分析以及故障分析等方面都可以發(fā)揮積極貢獻。
      華為在開(kāi)源Cacti工具基礎上對其代碼進(jìn)行了優(yōu)化,使得單臺服務(wù)器5分鐘的監控能力從大約30萬(wàn)個(gè)提升到200萬(wàn)個(gè),監控1000萬(wàn)個(gè)指標從需要30多臺服務(wù)器降低到只需5臺即可。
      華為IT的智能化網(wǎng)絡(luò )運維平臺實(shí)踐
      網(wǎng)絡(luò )自動(dòng)化
      網(wǎng)絡(luò )自動(dòng)化可覆蓋22個(gè)運維場(chǎng)景,包括策略增刪改、健康檢查、停電檢修和轉產(chǎn)驗收等頻度高、重復性強且耗費人力多的工作。華為每年有超過(guò)15萬(wàn)的防火墻策略調整,如果按照傳統的運維模式,需要投入公司所有的運維人力;而實(shí)現自動(dòng)化后,基本無(wú)需管理員干預,而且還可以實(shí)現策略的一致性、合理性和合規性。
      海量網(wǎng)絡(luò )設備的自動(dòng)化工具開(kāi)發(fā),相比于傳統的腳本實(shí)現有很多不同。設備類(lèi)型和配置方案多樣,如何實(shí)現一個(gè)程序在所有場(chǎng)景通用?設備數量多,如何提高程序與設備的交互效率?都是需要重點(diǎn)解決的問(wèn)題。通過(guò)規則與自動(dòng)化程序解耦、采用非阻塞的socket交互方式以及線(xiàn)程優(yōu)化控制等措施,可以實(shí)現20分鐘內完成10000臺網(wǎng)絡(luò )設備的配置下發(fā)。
      網(wǎng)絡(luò )監控
      如果依靠開(kāi)源Cacti工具的原生能力,單臺服務(wù)器5分鐘可以監控的指標大概在30萬(wàn)個(gè),要監控1000萬(wàn)個(gè)指標就需要30多臺服務(wù)器。華為在開(kāi)源代碼的基礎上對其進(jìn)行了優(yōu)化,包括優(yōu)化了數據存儲和告警算法、重寫(xiě)了部分模塊代碼等,使得單臺服務(wù)器5分鐘的監控能力提升到200萬(wàn)個(gè),這樣只需5臺服務(wù)器即可監控1000萬(wàn)個(gè)指標。同時(shí)還設計了松耦合的Master-Slave部署架構,將監控數據的采集進(jìn)行了負載分擔,并通過(guò)MySQL數據庫集群方式保證了數據模板的一致性和集中展示,使工具具備了Scaling-Out架構,前臺可以進(jìn)行數據統一展示查詢(xún),而后臺數據采集、SQL關(guān)系維護和數據存儲則可以分散部署。
      華為自建了網(wǎng)絡(luò )日志系統,可以實(shí)時(shí)收集現網(wǎng)設備日志,并針對關(guān)鍵字進(jìn)行監控告警。同時(shí)還可對每天收集到的1500萬(wàn)條日志進(jìn)行預處理,一方面通過(guò)對日志的結構化處理提取出時(shí)間、類(lèi)型、級別和關(guān)鍵字等信息;另一方面對日志進(jìn)行豐富化處理,通過(guò)與網(wǎng)絡(luò )配置庫(CMDB)對接,自動(dòng)關(guān)聯(lián)設備所屬的網(wǎng)絡(luò )和型號等信息,以增強日志的可讀性,支持多維度的日志信息檢索和可視化。
      網(wǎng)絡(luò )智能分析
      現在,華為云數據中心網(wǎng)絡(luò )每萬(wàn)個(gè)監控指標的告警量已由2014年的每天10個(gè)大幅下降到了0.5個(gè),這主要有賴(lài)于對歷史告警的大數據分析持續優(yōu)化了監控告警閾值的設定,同時(shí)結合不同的網(wǎng)絡(luò )場(chǎng)景使用過(guò)濾、去重和Flapping抑制等方法減少了無(wú)效告警數量。
      光模塊是云數據中心網(wǎng)絡(luò )中故障率最高的部件,據華為統計,每年運行中故障率大概在2‰。而光模塊一旦出現故障會(huì )造成丟包等問(wèn)題,對業(yè)務(wù)影響很大,現網(wǎng)中就曾經(jīng)發(fā)生過(guò)由于骨干鏈路上的一個(gè)光模塊故障導致網(wǎng)絡(luò )丟包、最終影響到了幾十個(gè)應用的案例。因此,如果能通過(guò)對光模塊的檢測和預測提前識別問(wèn)題就可以避免對業(yè)務(wù)造成嚴重影響。
      為此,華為對影響光模塊運行狀態(tài)的指標進(jìn)行了嚴密監控,每天收集現網(wǎng)80000個(gè)光模塊的運行信息,結合專(zhuān)家經(jīng)驗和機器學(xué)習方法發(fā)掘光模塊各指標與異常故障之間的關(guān)聯(lián),并循環(huán)調優(yōu)檢測算法,迅速識別已經(jīng)故障的模塊;同時(shí),依靠機器學(xué)習和時(shí)間序列分析方法對未來(lái)一段時(shí)間內的多指標進(jìn)行預測,判定光模塊的未來(lái)狀態(tài)是否滿(mǎn)足異常故障的條件,并將已故障模塊的歷史指標序列作為輸入樣本來(lái)確定和調優(yōu)預測算法,使得目前故障光模塊的預測準確性已接近50%。
      云開(kāi)啟了網(wǎng)絡(luò )運維的新篇章,華為將持續構建智能化網(wǎng)絡(luò )運維平臺,不斷拓展自動(dòng)化、網(wǎng)絡(luò )監控和智能分析等場(chǎng)景,形成閉環(huán)的網(wǎng)絡(luò )運維體系,實(shí)現秒級故障定位、分鐘級故障隔離與自愈、網(wǎng)絡(luò )質(zhì)量可預測與可優(yōu)化,以及全生命周期運維自動(dòng)化的目標。讓網(wǎng)絡(luò )運維向著(zhù)無(wú)人值守這一終極目標大步邁進(jìn)!
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 岗巴县| 射阳县| 广州市| 九寨沟县| 娱乐| 江达县| 团风县| 霸州市| 六盘水市| 霞浦县| 卢龙县| 金阳县| 绍兴县| 绥宁县| 延川县| 唐海县| 台东市| 灵武市| 元谋县| 宁南县| 安溪县| 微山县| 竹山县| 塔城市| 延津县| 昭觉县| 泸州市| 广安市| 武胜县| 新田县| 郑州市| 汉沽区| 白玉县| 金湖县| 五台县| 黎平县| 涟源市| 西丰县| 洪雅县| 东光县| 珲春市| http://444 http://444 http://444 http://444 http://444 http://444