如今的數據中心已經(jīng)承載著(zhù)太多的重要業(yè)務(wù),人們的生活早已經(jīng)離不開(kāi)數據中心,它已經(jīng)成為了人們生活的一部分,一旦數據中心發(fā)生故障將給人們帶來(lái)很多不便和經(jīng)濟損失。因為每當數據中心發(fā)生故障后,既然可以通過(guò)一些歷史記錄去還原故障的發(fā)生原貌,對數據中心的未來(lái)發(fā)展建設都會(huì )很有借鑒意義。
絕大多數的數據中心都是運行在固定的建筑當中,不過(guò)也有一些可以移動(dòng)的數據中心,這些移動(dòng)的數據中心在工作時(shí)也基本是在固定的位置,這就和飛機有最大的不同。飛機發(fā)生墜毀一切設備都無(wú)法再繼續工作,現場(chǎng)也會(huì )被破壞,而數據中心是在固定的位置,故障現場(chǎng)依然可以被很好地保留著(zhù),這就為故障分析提供了很好的參考依據。從以往數據中心發(fā)生的故障來(lái)看,主要有三類(lèi):自然災害;人為故障;設備故障,這三個(gè)方面。90%以上的故障都來(lái)自于這三個(gè)方面。
對于地震、火災、雷擊等天然災害,從故障現場(chǎng)的受損情況就可以分析出來(lái)。比如雷擊,會(huì )產(chǎn)生強大的沖擊電流,打到設備上,就會(huì )引起設備器件短路,產(chǎn)生瞬間的高壓,使電路急劇生溫,輕微的可引起設備短路故障,嚴重的還能引起火災。對于這些自然災害,數據中心也有很多的技術(shù)手段可以最大程度上避免災害的發(fā)生,針對每一種自然災害數據中心都需要加以重視,才能躲避開(kāi)這些自然災害。比如增加機柜和機房地面的固定螺絲,安裝避雷針,增加放火報警系統和防火器材。當出現這些自然災害時(shí),減少對數據中心的沖擊。
人為故障占到了數據中心的故障中的70%,其中也可以分為有意的和無(wú)意的。有意的是指明知道一些操作會(huì )造成數據中心故障,仍執意去做的,這些人往往希望通過(guò)造成數據中心運行癱瘓,而達到不可告人的目的。常見(jiàn)的有黑客、情報人員、商業(yè)機密小偷等等,他們攻擊的對象往往是數據中心里的數據,通過(guò)造成數據中心故障來(lái)達到竊取或損壞數據的目的。無(wú)意的是指本意并不想破壞數據中心,但是由于自己的技術(shù)積累經(jīng)驗不夠或者疏忽,自己的操作引發(fā)了數據中心故障,這種故障占到了人為故障的80%以上。數據中心是一個(gè)復雜龐大的系統,不可能一個(gè)人面面俱到都精通,當接觸到自己不熟悉或不了解的地方,操作往往引發(fā)意想不到的結果,因此加強對人的管理尤為重要。在對數據中心做任何調整時(shí),都要從全局考慮,集中最優(yōu)秀的技術(shù)人員,將人為操作風(fēng)險降低。這類(lèi)事故往往也很容易留下證據記錄,給事故分析帶來(lái)方便。幾乎所有的數據中心都有門(mén)禁系統、視頻監控系統,任何人的出入都有記錄,很容易查到。有不少的數據中心提供遠程的訪(fǎng)問(wèn),那么所有的訪(fǎng)問(wèn)操作在數據中心后臺數據中心都有記錄,訪(fǎng)問(wèn)者對數據中心業(yè)務(wù)調整、修改配置、甚至重起設備等任何操作都會(huì )記錄在案,只要數據中心不是全面的毀滅,這些記錄都會(huì )在后臺的數據庫中查到,通過(guò)記錄的時(shí)間和訪(fǎng)問(wèn)的人就可以查明人為事故的原因。
設備運行故障也是數據中心故障的一類(lèi),大型的數據中心擁有數千臺設備很普遍,這些電子設備難免運行中出現故障。一旦出現故障,就需要對設備進(jìn)行分析,很多現場(chǎng)操作人員并不具備分析問(wèn)題的能力,為了恢復業(yè)務(wù),只能重起設備,或者將業(yè)務(wù)切割到別的備份設備上。當故障設備上沒(méi)有業(yè)務(wù)或者已經(jīng)重起了,其上很多時(shí)時(shí)記錄都會(huì )沖掉,這樣給故障分析帶來(lái)難度。很多時(shí)候故障的表現也并非集中在某一臺設備上,心急的操作人員可能將所有設備全部重啟或將業(yè)務(wù)全部割離,如果設備能提供詳細的歷史記錄,那么對于故障分析非常有幫助。數據中心不怕出故障,怕的是出了故障后找不到原因,這相當于給數據中心埋了一個(gè)定時(shí)炸彈。其實(shí)在很多高端設備上已經(jīng)增加了一些可以記錄歷史信息的模塊,比如采用NVRAM、EEPROM等非憶失性器件時(shí)時(shí)記錄設備運行的各種參數,當設備發(fā)生故障后,哪怕是設備發(fā)生了斷電,這些器件依然可以正常運行,記錄下來(lái)設備運行的各種參數,這些數據往往是故障后分析參考的最重要數據來(lái)源。當數據中心出現故障后,有的設備可以提供故障時(shí)設備運行的各種數據參數,非常具有說(shuō)服力,有時(shí)也是證明自己設備沒(méi)有問(wèn)題的重要信息,而一旦在故障后,一些設備沒(méi)有可分析的數據記錄,根本分不清是不是自己的問(wèn)題,這樣的設備很快就會(huì )被數據中心所棄用。如果通過(guò)數據分析是自己設備的問(wèn)題,那么設備商依然可以根據這些數據去優(yōu)化設備設計,從而避免這類(lèi)故障的再次發(fā)生,讓設備運行更加穩定。
數據中心也有各種各樣的監控手段和歷史信息記錄,這些技術(shù)為數據中心的穩定運行提供了保障,也是不斷推動(dòng)數據中心完善的重要舉措。如同飛機上的黑匣子,數據中心也有自己的一套故障定位信息獲取方案,這些信息可以在一定程度上有效還原故障時(shí)數據中心的完貌,通過(guò)對這些數據分析,不僅可以找到故障原因,還可以根據這些故障對數據中心進(jìn)行優(yōu)化,避免發(fā)生二次故障。