Google的數據中心以高能效著(zhù)稱(chēng)。但是他們還不滿(mǎn)足,在今天的Data Centers Europe 2014上,Google數據中心副總裁Joe kava介紹了自己的公司是如何利用機器學(xué)習和人工智能來(lái)進(jìn)一步改進(jìn)數據中心能效的。
業(yè)界一般用PUE(電能使用效率)來(lái)衡量數據中心的能效,PUE=數據中心總設備能耗/IT設備能耗,其基準值為2,越接近1表明能效越高。Google之前的PUE已經(jīng)達到了驚人的1.12,這說(shuō)明其用于制冷與配電等的消耗已經(jīng)很少。
但是Google決定利用神經(jīng)網(wǎng)絡(luò )讓其數據中心能效更上一層樓。據Kava介紹,該項目屬于Google的20%項目。他們每30秒就計算一次PUE,還不斷跟蹤IT設備能耗、機外氣溫以及制冷和機械設備的設置情況等。而Google數據中心團隊成員Jim Gao對這些數據非常熟悉,他意識到這些數據還可以進(jìn)一步利用。于是Gao通過(guò)機器學(xué)習對這些數據進(jìn)行研究,并建立起模型來(lái)預測并進(jìn)一步改進(jìn)數據中心能效。
結果表明,該模型的預測準確率達到了99.6%(參見(jiàn)下圖)。如果高的準確率意味著(zhù)Google對數據中心下一步的能量需求情況了如指掌,從而可以通過(guò)設置調整進(jìn)一步提升能效。Kava舉了一個(gè)例子。幾個(gè)月前,他們有幾臺服務(wù)器要下線(xiàn)幾天,其結果是數據中心能效會(huì )有所降低。但利用Gao的模型他們臨時(shí)調整了制冷設置,從而降低了那段時(shí)間對PUE的影響。
上述情況下Google進(jìn)行電力基礎設施升級要重新調整40%的服務(wù)器流量,但是通過(guò)PUE仿真與專(zhuān)家知識的結合,團隊選定了一套新的運營(yíng)參數,從而將PUE再降了0.02。不要小看這個(gè)值,考慮到Google有成千上萬(wàn)臺服務(wù)器,乘上巨大的能耗就是可觀(guān)的節能效果。
Gao在今天發(fā)布的白皮書(shū)上解釋了自己的做法。他說(shuō)神經(jīng)網(wǎng)絡(luò )對復雜系統建模具有優(yōu)勢,因為神經(jīng)網(wǎng)絡(luò )不需要用戶(hù)預設模型的交互特征,而是在特征中尋找模式和交互,然后自動(dòng)生成最佳匹配模型。
該神經(jīng)網(wǎng)絡(luò )研究的因素包括了服務(wù)器總負載,水泵、冷卻塔、冷水機組、干式冷卻器、運行中的冷水注水泵數量;冷卻塔水溫、濕球溫度、戶(hù)外濕度、風(fēng)速、風(fēng)向等。Google利用傳感器部署了億萬(wàn)個(gè)數據點(diǎn)來(lái)收集這些基礎設施和電能使用信息。不過(guò)令人略為驚訝的是,Google只用一臺服務(wù)器就能跑這個(gè)神經(jīng)網(wǎng)絡(luò )了。
Gao在白皮書(shū)中寫(xiě)道,Google數據中心的實(shí)際測試表明,機器學(xué)習是利用傳感器數據對數據中心能效建模的一種有效方法,可帶來(lái)顯著(zhù)的成本節省。不過(guò)國內較為粗放式管理的數據中心恐怕短時(shí)間內難以效仿。