
2018年第四屆數據中心基礎設施峰會(huì ),華為智能DC管理系統產(chǎn)品規劃經(jīng)理魯楠分享了題為《華為DCIM+智能運維管理技術(shù)和實(shí)踐》
以下為精彩演講實(shí)錄(有刪減)
今天我要分享的是基于華為實(shí)際運營(yíng)經(jīng)驗的數據中心運維管理平臺,我們把管理平臺定義為DCIM+,是遠遠高于業(yè)內DCIM的定義的,所以我們希望通過(guò)這么一個(gè)+,把我們數據中心的管理理念或者管理的方面使用到一個(gè)新的程度。
數據中心營(yíng)維的挑戰
數據中心在新的產(chǎn)業(yè)階段面臨著(zhù)如何運營(yíng)好大型化和集群化數據中心的問(wèn)題,以華為以及金融的兩地三中心的數據中心為代表,數據中心已經(jīng)到了非常大規模的程度,單個(gè)數據中心基本上也都會(huì )達到上萬(wàn)的規模,同時(shí)互聯(lián)網(wǎng)數據中心IDC發(fā)展更迅速,一些運營(yíng)商在規劃數據中心的時(shí)候一次就能規劃16、17棟樓。所以在這么大的數據中心產(chǎn)業(yè)發(fā)展基礎上,我們如何更好經(jīng)營(yíng)這個(gè)數據中心是現在大家面臨的一個(gè)最新的挑戰。具體來(lái)講有以下四點(diǎn):
第一,運維的挑戰。目前智能化逐漸融入各行各業(yè),但是落到咱們數據中心的運維過(guò)程中仍然是一個(gè)非常原始的方式,大量的數據中心仍然靠人工每天6次、12次的巡檢,人工現場(chǎng)去檢查各種故障和隱患,這樣是非常低效的。而且由于人工操作帶來(lái)的事故變相增多。根據相關(guān)研究報告顯示,包括我們自身的實(shí)踐也可以看到,大多數的事故并不是起源于設備本身,而起源于人為的失誤,人參與越多產(chǎn)生的問(wèn)題越多,所以下一步我們所希望的也是客戶(hù)所希望的是,通過(guò)智能化的、系統的方式降低運維的難度和對人工運維的依賴(lài),提升運維效率。
第二,管理的問(wèn)題。數據中心規模的不斷擴大,如何面對管理的壓力?首先專(zhuān)業(yè)運維人員短缺的問(wèn)題,其次是面臨分散的、大規模的數據中心,如何保障管理水平的一致性。例如華為在全球有170多個(gè)數據中心,如何保障分散化的數據中心管理的一致性,如何保障每一個(gè)數據中心執行不同的等級管理標準,這是非常嚴峻的問(wèn)題。
第三,成本的問(wèn)題。因為高居不下的電費,現在越來(lái)越多的數據中心高層已經(jīng)把能耗變成運維部門(mén)的一個(gè)KPI,因此大家對這個(gè)都非常重視。
最后,運營(yíng)的挑戰。現在行業(yè)上大部分數據中心是缺乏運營(yíng)的,具體表現在3個(gè)說(shuō)不清楚上。第一錢(qián)花在哪里說(shuō)不清楚,比如具體電費花在哪里、運維人員的人力和費用說(shuō)不清楚。第二有些錢(qián)該不該花說(shuō)不清楚,比如說(shuō)我們要上一套運維的管理平臺,具體它的價(jià)值在哪里,它能給我的數據中心帶來(lái)多少收益?這個(gè)說(shuō)不清楚。第三個(gè)要不要再花說(shuō)不清楚,什么時(shí)候我們的數據中心開(kāi)始要擴容了,什么時(shí)候我們要去外面再租一個(gè)數據中心,我們現有的資源有沒(méi)有得到充分利用,這一點(diǎn)是很多數據中心的管理者非常頭痛的一個(gè)問(wèn)題。
基于以上這幾個(gè)問(wèn)題,下面介紹一下華為在數據中心智能的運維管理平臺DCIM+產(chǎn)品化方面的一些實(shí)踐經(jīng)驗。
首先監控底層數字化的問(wèn)題,華為基于在通信方面豐富的經(jīng)驗優(yōu)勢,把所有自己的設備做了智能化,我們現在不僅僅做到IO化,希望未來(lái)做到IOT化,希望通過(guò)5G的方式,這樣就可以更好保障數據的準確性,保障我們更多獲取到基礎設施數字化的數據。
第二是網(wǎng)絡(luò )化的內容,現在絕大多數的DCIM中間這一層主要是采集器,而我們現在希望把它打造成一個(gè)邊緣的計算中心,這個(gè)計算中心的作用在于數據的處理,我們監控的一些數據通過(guò)這個(gè)采集去傳的話(huà),比如不同品牌、不同廠(chǎng)家設備的協(xié)議統一,就是數據模型的統一都會(huì )在這個(gè)上面進(jìn)行出路,同時(shí)加入AI的特性,比如圖像識別的特性。前一段時(shí)間在上海華為已經(jīng)發(fā)布了AI芯片,將來(lái)也會(huì )內置在邊緣計算當中,保證數據中心基礎設施的數字化得到完整的呈現。再往上一層是我們的云平臺,就是DCIM的軟件,主要做一些數據的處理和分析,包括我們對于資源的管理,對于運維的管理以及輔助決策的能力。
華為DCIM+的實(shí)踐
- 第一個(gè)是全流程的電子運維,包括巡檢的操作、維保的操作、應急演練的操作,把所有的流程以及操作指導全部做到線(xiàn)上,實(shí)現了運維質(zhì)量從原來(lái)靠人,靠人的責任心,到現在靠流程管理的升級。華為通過(guò)后續的量化指標,通過(guò)全流程電子化的運維跟蹤,量化原來(lái)沒(méi)有辦法量化的,比如維護保養巡檢的執行力、運維活動(dòng)的質(zhì)量。此外,通過(guò)流程去跟蹤風(fēng)險遠遠比依靠個(gè)人的責任心去跟蹤風(fēng)險有效可靠得多,目前我們在短短幾個(gè)月時(shí)間發(fā)現風(fēng)險的條目就已經(jīng)增加了十幾倍,這意味著(zhù)你平時(shí)發(fā)現的隱患或者發(fā)現的風(fēng)險越多,越容易避免非常大的重大事故。
- 第二個(gè)是運營(yíng)可視化的實(shí)踐。這與第一點(diǎn)是相互關(guān)聯(lián)的,因為量化所有運維活動(dòng)的數字,也是某種意義上的可視化。通過(guò)可視化,傳統的監控數據信息可以更直觀(guān)的呈現出來(lái)。華為全部采用3D的模式,在DCIM+管理系統里面,客戶(hù)想看和想查找的的信息一目了然,操作也十分便捷,和現場(chǎng)的實(shí)際情況是一樣的;根據可視化的數據信息,我們運營(yíng)分析因此也可以做到可視化,比如機柜的使用率,資源的出資情況、剩余情況等等,都可以進(jìn)行可視化管理,為客戶(hù)提供更好的體驗。
- 第三個(gè)實(shí)踐是數字化的管理,更確切的說(shuō)是數字化的決策。在做數據中心容量規劃過(guò)程中,比如我們服務(wù)器具體上架的最佳位置,現在更多是靠人的主觀(guān)性判斷,沒(méi)有數據做決策支撐。因此在華為DCIM+里面,我們疊加了上架的算法,不僅僅是上架,包括空間的規劃、電力的規劃等等,全都放到系統里面。所以我們在業(yè)務(wù)運行的過(guò)程中需要做決策的時(shí)候,系統會(huì )基于能效更優(yōu)還是利用率更平衡等幾種模式做出推薦,同時(shí)還會(huì )針對不同的業(yè)務(wù)使用方的使用率進(jìn)行一個(gè)動(dòng)態(tài)的評估,這樣可以讓你更好調度這些資源,充分挖掘現有數據中心的潛力。
最后一個(gè)實(shí)踐就是我們在A(yíng)I方面的進(jìn)一步探索,將被動(dòng)式運維變成預測性和主動(dòng)式維護,改變傳統的人工運維模式。例如我們需要現場(chǎng)更換一些易損的部件,以電池為例(因為現在的監控系統是覆蓋不到的),可以引入AI和大數據的方式,把圖像識別、聲音識別等類(lèi)似的傳感器放在一起做AI方面的判斷,減少大家現場(chǎng)的工作。另外就是指導人,為決策做支撐,讓大家的價(jià)值發(fā)揮到最大,比如專(zhuān)家的經(jīng)驗覆蓋到更多的數據中心,讓大家的決策更加準確和正確。
關(guān)于網(wǎng)絡(luò )安全的話(huà)題。眾所周知,數據中心的網(wǎng)絡(luò )安全非常重要,但是基礎設施的網(wǎng)絡(luò )安全可能大家關(guān)注的非常少,其實(shí)隨著(zhù)設備的智能化程度越來(lái)越高,包括更多的端口的出現,我們面臨的風(fēng)險也會(huì )越來(lái)越高,包括身份的篡改等等都會(huì )出現,只有全面的掌握可能的威脅才有可能進(jìn)行系統的防御。
華為做了非常多的信息安全工作,當然不僅僅是公司級的,包括我們自己的產(chǎn)品-華為數據中心DCIM+的產(chǎn)品,我們的軟件產(chǎn)品,全部通過(guò)國家公安部最高等級的信息安全認證,可以充分保證基礎設施的網(wǎng)絡(luò )安全。
華為基于云的DCIM+,是一站式的多DC管理系統,你只需要一個(gè)手機APP,一鍵就可以看到DC狀態(tài);通過(guò)云化的DCIM+可實(shí)現后續數字化、可視化的運維和管理,提升DC營(yíng)維效率。