
華為Cloud BU全球云數據中心設計與技術(shù)總監檀志恒
2018年第四屆數據中心基礎設施峰會(huì )
華為Cloud BU全球云數據中心設計與技術(shù)總監檀志恒在第四屆數據中心基礎設施峰會(huì )上發(fā)表了題為《云時(shí)代數據中心對基礎設施的挑戰和需求》的演講。
以下為精彩演講實(shí)錄(有刪減)
各位嘉賓,上午好!我今天和大家分享的題目是《云時(shí)代數據中心對基礎設施的需求和挑戰》,這個(gè)題目有點(diǎn)大,在開(kāi)始這個(gè)題目研討之前,我想和大家共同思考一個(gè)問(wèn)題,傳統數據中心和云數據中心的根本區別到底是什么?
傳統數據中心與云數據中心
的根本區別在于商業(yè)模式的不同
我很贊同一種觀(guān)點(diǎn),這個(gè)觀(guān)點(diǎn)就是商業(yè)模式的不同,是傳統數據中心與云數據中心的根本區別。為什么這么說(shuō)呢?對于傳統數據中心我們通常總是認為,在傳統數據中心里面我們是以數據中心的設備為主,從而相對割裂數據中心基礎設施與企業(yè)服務(wù)產(chǎn)品,那么快速發(fā)展的企業(yè)服務(wù),對數據中心基礎設施的要求,尤其是對交付的要求是很高的,我們傳統數據中心的這種以基礎設施為核心的或者說(shuō)為中心的這種理念,不能滿(mǎn)足快速發(fā)展的企業(yè)服務(wù)要求。
我們會(huì )看到,為了解決這種結構性的矛盾,我們必須以轉變傳統數據中心的架構,我們必須以服務(wù)為導向,把這個(gè)傳統的數據中心基礎設施,以及我們所運用的運營(yíng)管理平臺,以及服務(wù)產(chǎn)品,作為一個(gè)統一的服務(wù)產(chǎn)品,按時(shí)隨時(shí)隨地快速的進(jìn)行交付。所以我們云時(shí)代數據中心的基礎設施的建設,都必須以保證商業(yè)模式這種建設的成功為前提。我今天所研討的話(huà)題就以這個(gè)為核心來(lái)進(jìn)行展開(kāi)。
云時(shí)代數據中心架構對基礎設施布局的影響
以多可用區為指導,對數據中心進(jìn)行規劃
我們先介紹一下云數據中心基礎設施的布局的影響,首先我們看一下云的這種商業(yè)模式,低成本訴求驅動(dòng)數據中心向內蒙、寧夏、貴州這些低成本區域進(jìn)行會(huì )聚,大型云數據中心的廠(chǎng)家前店后廠(chǎng)這種數據中心的部署模式逐步形成,云區域多可用區(Available Zone)等概念被業(yè)界普遍接受并應用。講這些內容大家會(huì )有一些疑問(wèn),對我們數據中心的建設者或者規劃者有什么意義呢?作為云數據中心的管理者,我們在市場(chǎng)或者我們在經(jīng)營(yíng)中遇到很多問(wèn)題,我知道今天有很多嘉賓來(lái)自于數據中心的規劃,包括政府部門(mén),實(shí)際上我們在市場(chǎng)中應該深刻的理解云這種商業(yè)模式對于我們數據中心基礎設施建設的影響。
比如說(shuō)多可用區這種概念被業(yè)界普遍的接受和實(shí)施,我們數據中心的規劃者和建設者,就應該深刻的理解多AZ的概念,比如我們云要部署在多AZ的基礎上,在市場(chǎng)上我們進(jìn)行數據中心規劃的時(shí)候,就應該以多AZ為指導,比如說(shuō)我們在距離和網(wǎng)絡(luò )時(shí)延要求上,我們有一定的要求,我們在市場(chǎng)上會(huì )發(fā)現我們有很多的數據中心,但是這種結構性的差異,比如說(shuō)我們在建設的時(shí)候,沒(méi)有考慮業(yè)務(wù)場(chǎng)景的具體的要求,我們的數據中心都是扎堆建設的,或者說(shuō)我們數據中心的規劃離得特別遠,滿(mǎn)足不了時(shí)延的要求,那么對于我們云服務(wù)的這種商業(yè)模式就不能夠進(jìn)行滿(mǎn)足。
從華為云在中國區域部署的架構中,首先我們可以看到在核心層,我們在烏蘭察布、在貴安有兩個(gè)大規模低成本的資源池,也就是我們前面提到的后廠(chǎng),對于時(shí)延要求比較敏感的客戶(hù),我們在東南西北、華東、華北,就是北京區域、上海區域,以及華南、廣州和深圳,包括我們的西部區域,包括我們今天所在的成都以及貴陽(yáng),我們部署了二級核心起點(diǎn),我們還會(huì )結合客戶(hù)的需求,華為云在一些二三級城市部署了邊緣節點(diǎn)的數據中心。
講完了布局整個(gè)架構的影響,我們看一下云這個(gè)產(chǎn)業(yè)在我們中國對于實(shí)際數據中心的落地到底是一個(gè)什么樣的影響。我們從最近的四年,應該說(shuō)大概是從2013年或者2014年開(kāi)始,大型云數據中心在一類(lèi)地區,剛才提到的內蒙、寧夏以及貴安、貴陽(yáng)等地區密集布局,開(kāi)始落地。包含華為在內的阿里巴巴、蘋(píng)果以及騰訊等公司這些云玩家已經(jīng)建設好或者是已經(jīng)開(kāi)始進(jìn)行布局數據中心。
云時(shí)代刺激了超大型數據中心
和邊緣性數據中心的需求
1、超大型數據中心的規模越來(lái)越大
講完布局方面的影響,我們看一下云數據中心對數據中心基礎設施規模的影響。根據CISCO對超大型數據中心規模的統計和預測,從2016年開(kāi)始到2021年超大型數據中心的年負荷增長(cháng)率達到13%,超大型數據中心的一些特點(diǎn),我這里簡(jiǎn)單的介紹一下,后面我會(huì )結合數據中心的規模給我們業(yè)界和行業(yè)的挑戰做一些講解。超大型數據中心除了服務(wù)器規模達到了10萬(wàn)臺或者幾十萬(wàn)臺這樣的規模以外,同樣它的功率密度越來(lái)越高,達到了8到15千瓦,甚至更高,那么我們華為云數據中心有關(guān)AI或者其他的一些應用的部署,單機柜功率密度有可能達到幾十萬(wàn)千瓦的水平。同樣數據中心的建筑面積以及網(wǎng)絡(luò )連接是越來(lái)越密集,對于安全的要求也是越來(lái)越高。
2、邊緣計算數據中心的部署需要更加集成化和快速化
超大型數據中心的規模越來(lái)越大,是不是代表小型數據中心就沒(méi)有未來(lái)?事實(shí)有可能是恰恰相反的。我們知道萬(wàn)物互聯(lián)浪潮的到來(lái),遠程的云數據中心系統已經(jīng)滿(mǎn)足不了或者是解決不了這種需求,而邊緣計算是一個(gè)很好的解決方案,可以說(shuō)邊緣計算是小型數據中心的未來(lái),因為不僅僅對于我們個(gè)人,對于企業(yè)運用客戶(hù)來(lái)講,比如說(shuō)我們自動(dòng)駕駛或者是無(wú)人駕駛汽車(chē),遠程的辦公系統,以及華為的體驗店,這些應用場(chǎng)景都要求數據中心基礎設施更加靠近數據源,這個(gè)時(shí)候才能滿(mǎn)足隨時(shí)快速的接入的要求。除了對于布局的要求以外,從小型數據中心的管理和部署方面來(lái)講,我們要求數據中心更加集成化,部署更加快速化,要求一鍵即成,快速部署,當然對于我們小型數據中心由于廣泛的布局,同樣對基礎設施以及整個(gè)信息安全的管理提出的挑戰,怎么通過(guò)遠程智能化的管理來(lái)保證管理效率的提升,以及信息安全的保證,這個(gè)都是我們面臨的挑戰。
云時(shí)代數據中心基礎設施交付更加聚焦于
按需部署、彈性、去工程化、模塊化、標準化
講完規模,我們再看一下我們云這種商業(yè)模式下,我們對數據中心基礎設施的交付,同樣我們面臨的挑戰。由于我們業(yè)務(wù)的不確定性,給我們規劃造成了一定的挑戰,我相信我們在座的有很多數據中心的建設者,當我們規劃的過(guò)于激進(jìn),我們超前規劃的時(shí)候,我們就會(huì )造成大量的提前投入,當我們規劃太少的時(shí)候,我們就滿(mǎn)足不了業(yè)務(wù)的需求,由于數據中心是一個(gè)重資產(chǎn)的投入,我們要嚴格控制現金流,同樣我們前面講到了由于我們現在數據中心結構供給上面臨的一些問(wèn)題,對于數據中心的機房資源,尤其是對于我們云數據中心的需求者,比如我們在市場(chǎng)找數據中心資源的時(shí)候,發(fā)現數據中心租賃的資源是很短缺的,也就是一種結構性的短缺,雖然我們的規模現在越來(lái)越大,但是能夠滿(mǎn)足我們需求的數據中心這種基礎設施有可能還是相對比較少的。
我們就要求數據中心基礎設施的交付要根據我們的業(yè)務(wù)按需、彈性、快速,能夠去工程化、模塊化、標準化,對業(yè)界一些好的應用或者好的理念,比如說(shuō)在FACEBOOK提出了RDDC概念,亞馬遜提出了JITDC的概念,華為提出FusionDC的概念,所有這種交付的方式,都是為了滿(mǎn)足我們云這種產(chǎn)業(yè)或者這種商業(yè)模式的需求。
云時(shí)代數據中心對基礎設施架構、設備的需求
1、直接蒸發(fā) or 間接蒸發(fā)冷卻的技術(shù)?
我們前面講到了數據中心基礎設施的部署,包括規模和架構,那么對于我們實(shí)際的數據中心各個(gè)系統里面的架構到底有什么影響呢?前面我介紹到數據中心在我國逐步向內蒙的烏蘭察布、貴陽(yáng)以及寧夏的區域進(jìn)行匯集,這些區域我們前面講到一級數據中心的建設區域,自然新風(fēng)直接冷卻方案,包括直接蒸發(fā)、間接蒸發(fā)冷卻的技術(shù),在這個(gè)數據中心得以應用和實(shí)施。設計PUE可達1.1—1.2,我昨天到的西安,其實(shí)對于我們西北地區,我們有很多的數據中心建設,其實(shí)剛才講到的直接新風(fēng)含直接蒸發(fā)冷卻技術(shù)、間接蒸發(fā)冷卻技術(shù),在我們西北地區有廣闊的前景,我昨天到西安以后有點(diǎn)遺憾,下來(lái)就是有很?chē)乐氐撵F霾,為什么我覺(jué)得有點(diǎn)遺憾呢?如果大家仔細研究業(yè)界,尤其在在美國在數據中心產(chǎn)業(yè)目前空調冷卻的解決方案來(lái)看,直接蒸發(fā)冷卻技術(shù)是在目前包括亞馬遜、微軟、FACEBOOK大型云玩家里面是最科學(xué)、商業(yè)模式最成功的技術(shù)解決方案。現在不管是西北地區還是華北地區,我們的霧霾很?chē)乐兀覀兙鸵D向間接蒸發(fā)冷卻方案。
2、未來(lái)需要采用板極液冷的制冷模式來(lái)解決高密度服務(wù)器的應用
前面介紹了空調直接新風(fēng)冷卻技術(shù),下來(lái)我們講一下由于我們AI以及EI等運用場(chǎng)景對于GPU、CPU以及TUP這方面的應用,傳統的風(fēng)介質(zhì)的冷卻,已經(jīng)不能滿(mǎn)足高密度,也就是我們核算TCO的時(shí)候,大于15千瓦的部署,已經(jīng)不能滿(mǎn)足這個(gè)要求,板極液冷、全液冷、浸沒(méi)式的液冷等數據中心空調方案正快速落地、推廣。對于華為來(lái)講,我們開(kāi)始部署剛才說(shuō)的在西北地區、在華北地區的烏蘭察布以及在西南地區的貴安、貴陽(yáng)等地區,我們采用了直接新風(fēng)以及間接新風(fēng)的解決方案,未來(lái)我們會(huì )采用板極液冷的制冷模式來(lái)解決高密度服務(wù)器的應用。
3、云數據中心需要更加彈性的供電架構
我們講一下對于供電架構以及供電設備的需求,我們對于傳統的數據中心,我們最多的用戶(hù)架構是我們經(jīng)常說(shuō)的2N的架構,由于上層云技術(shù)的應用、上層架構的進(jìn)步,我們越來(lái)越多的供電架構的出現,包含我們的UPS,包括N+R等架構,這種架構降低了整個(gè)數據中心TCO的成本,也就是我們在云數據中心里面對供電架構基礎設施的需求越來(lái)越有彈性,我們在座的各位更應該根據我們每個(gè)公司的商業(yè)模式來(lái)選擇不同的供電架構,根據我們的技術(shù)水平或者說(shuō)核算的TCO來(lái)選擇不同的供電架構。我們一直在研究的分布式供電架構,隨著(zhù)電池技術(shù)的發(fā)展,分布式供電架構,包括Battery in Rack、Battery in Server也將得以實(shí)施。
4、AI加速運維/運營(yíng)管理的數字化、可視化、智能化
我們講了大型數據中心,講了千千萬(wàn)萬(wàn)個(gè)邊緣計算數據中心,這些數據中心我們都要對我們的運維、管理提出挑戰,我們分布全球的百萬(wàn)服務(wù)器手拉肩扛的管理模式已經(jīng)不能滿(mǎn)足這種需求,隨著(zhù)ZiGbee等無(wú)線(xiàn)互聯(lián)的實(shí)施,我們萬(wàn)物互聯(lián)的數字設備通過(guò)萬(wàn)物互聯(lián)管理。并隨著(zhù)大數據、AI等技術(shù)得以應用,實(shí)現基礎設施管理的自動(dòng)化、智能化。
控制DC規模,降低水電
資源壓力,保證行業(yè)可持續發(fā)展
我們對于基礎設施,也就是我們的供電,包括制冷到底又面臨著(zhù)什么樣的挑戰?高效、綠色的數據中心是我們矢志不移的追求,我們不斷的追求PUE DC的同時(shí),同時(shí)要關(guān)注DC對水資源的消耗,2016年中國數據中心總耗電量超過(guò)1200億千瓦,這個(gè)數字超過(guò)了三峽大壩2016年全年的總發(fā)電量,我們傳統的數據中心,我們用的解決方案,大部分是用機械制冷+冷卻塔這種模式,水資源由于成本方面的考慮,大家都不是很重視,因為它很便宜,對于我們經(jīng)營(yíng)成本來(lái)講壓力不是很大,但是我想強調由于數據中心規模的不斷擴大,數據中心對水資源的消耗是一個(gè)特別大的挑戰。
我去美國,包括和美國的同行進(jìn)行交流的時(shí)候,在美國已經(jīng)把數據中心的綠色或者高效,已經(jīng)把PUE和WUE作為聯(lián)合評價(jià)的指標,來(lái)評價(jià)數據中心的先進(jìn)性。目前國內在我們行業(yè)標準里沒(méi)有一個(gè)WUE的要求,在一些企業(yè)標準里,我大概知道的有可能有一兩家提到了WUE的要求。比如說(shuō)我們在國內有可能達到一個(gè)2.2升/千瓦時(shí)這樣一個(gè)水平,有可能這還是一個(gè)比較好的水平,但是在美國達到了什么樣的一個(gè)水平呢?比如在亞馬遜、在FACEBOOK的WUE達到了0.2升/千瓦時(shí),所以我們一定要注意我們對水資源這方面的消耗。為什么這樣說(shuō)呢?我們在實(shí)際數據中心的設計和建設的實(shí)踐中,我們就遇到了問(wèn)題,比如說(shuō)我們在剛才提到的寧夏、在華北地區的內蒙烏蘭察布等地區,這些地區水資源都相對匱乏,當我們大規模數據中心設計的時(shí)候,我們跟市政管理部門(mén)咨詢(xún)的時(shí)候,明確提出你們水資源的要求,我們的市政管網(wǎng)、我們市政水系統滿(mǎn)足不了你們的要求,尤其在一個(gè)區域內大規模部署數據中心的時(shí)候,這個(gè)要求和挑戰是很大的。
隨著(zhù)DC單體規模的不斷擴大,我們?yōu)闇p少這個(gè)區域內電力、水資源的壓力,我們應該適當的控制單體DC的規模,尤其是一個(gè)區域的數據中心的規模。在減少這個(gè)資源要求的同時(shí),從云服務(wù)這個(gè)角度來(lái)講,我們可以適當控制DC的故障域,降低云業(yè)務(wù)的運行風(fēng)險。
在座的有很多來(lái)自政府部門(mén),以及數據中心的規劃和建設的公司,我提議作為政府部門(mén)要適當的引導數據中心的布局,控制數據中心的規模,從而減少我們對電力、水資源的壓力。另外我們數據中心的建設者也同樣要適當的控制數據中心的規模,不是數據中心越大越好,在國內我們做宣傳的時(shí)候,我們要少宣傳多少數據中心的規模達到全球前幾名,我們要適當控制數據中心的規模,從而保證這個(gè)行業(yè)可持續發(fā)展,并能夠適當控制云服務(wù)的故障域。
謝謝大家!