由于云計算和虛擬化等新技術(shù)的到來(lái),數據中心的演進(jìn)可能會(huì )把它自身變成一個(gè)非常不同的環(huán)境。然而,任何運作平穩且成功的數據中心總是需要一些基本要素的。不管數據中心的規模是像一個(gè)立式式衣柜還是一架飛機,甚至是傳言中谷歌正在搭建游艇式數據中心,這些要素都是非常關(guān)鍵的。
1、環(huán)境控制
標準化、可預測的環(huán)境是任何高質(zhì)量數據中心的基石。這不僅僅是關(guān)乎讓設備冷卻、維持適當的濕度(根據維基百科,推薦的溫度范圍是61-75華氏度/16-24攝氏度,40%-55%的濕度),你還需要考慮滅火、空氣氣流以及功率分配等因素。我曾經(jīng)工作過(guò)的一家公司為了確保數據中心盡可能一塵不染,要求機房?jì)炔荒艽娣湃魏渭埌逑洹_@么做是因為紙板顆粒可能會(huì )進(jìn)入氣流中,潛在地污染服務(wù)器,因為分布機制是將冷空氣送到機架前端。這個(gè)例子可能有些極端,但是說(shuō)明了這一點(diǎn)的重要性。
2、安全性
不用說(shuō)(但不管怎樣我還是會(huì )說(shuō)),物理安全是一個(gè)可靠的數據中心的基礎。讓你的系統處于嚴密的開(kāi)啟關(guān)閉狀態(tài),僅允許那些獲得授權的人員進(jìn)入,在配合只允許對服務(wù)器、應用和網(wǎng)絡(luò )中傳輸的數據進(jìn)行的必要訪(fǎng)問(wèn)。可以肯定地說(shuō),任何企業(yè)最有價(jià)值的資產(chǎn)都是在數據中心里。三流的小偷會(huì )偷筆記本電腦或者手機。職業(yè)偷盜者會(huì )把目光鎖定數據中心。門(mén)鎖是可以被攻克的,所以我建議同時(shí)使用警報器。當然,警報器也可能失效,所以想想你的下一步措施:把服務(wù)器機架也鎖上?為你的安全系統配備備用電源?雇傭保安?這取決于你的安全需求,但是要記住,“安全是一段旅程,而不是終點(diǎn)。”
3、問(wèn)責
作為一名系統管理員來(lái)說(shuō),我可以證明大多數IT人都是專(zhuān)業(yè)且值得信賴(lài)的。但是,我并不否認需要在數據中心方面有一定的問(wèn)責制度來(lái)追蹤其行為。數據中心應該記錄通過(guò)準入訪(fǎng)問(wèn)的登錄信息(而且我建議這些日志由IT部門(mén)之外的部門(mén)管理,例如安全部門(mén),或者這些信息的副本保存在IT總監和副總裁等多人手中)。訪(fǎng)客應該登錄或者登出,任何時(shí)候都保持在監督的情況下。應該開(kāi)啟對網(wǎng)絡(luò )、應用、文件資源的審查。最后,每個(gè)系統都應該有一個(gè)確定的負責人,不管是服務(wù)器、路由器、數據中心冷卻器還是報警系統。
4、策略
每一個(gè)涉及數據中心的流程背后都應該有它的一套策略,以確保環(huán)境維護和管理。你需要系統訪(fǎng)問(wèn)和使用的策略(例如,只有數據庫管理員可以完全控制SQL服務(wù)器)。你還應該有數據保留的策略——你保存備份多長(cháng)時(shí)間?你是離站保存這些備份嗎?如果這些備份內容過(guò)期的話(huà)怎么辦?同樣的道理也適用于安裝新系統,檢查過(guò)時(shí)的設備或者服務(wù),以及拆除舊設備——例如,擦除服務(wù)器硬盤(pán),捐贈或者回收硬件。
5、冗余
我擁有的第一輛車(chē)是一輛藍色福特Pinto。當時(shí)它花了我父母400美元,油費是每加侖1美元,我開(kāi)著(zhù)它到處走。它有一個(gè)備用輪胎經(jīng)常能派上用場(chǎng)。我說(shuō)這件事并不是為了懷舊,而是為提出一個(gè)觀(guān)點(diǎn):即使我的老爺車(chē)也具備一定的冗余性。你的數據中心應該是更尖端、更昂貴以及非常關(guān)鍵的,因此你需要的不僅僅是一個(gè)“備用輪胎”來(lái)確保它的健康運行。你企業(yè)需要保持運轉的一切事情都應該至少保存兩份,不管是郵件服務(wù)器、ISP、數據光纖鏈路還是VOIP電話(huà)系統虛擬機。三份或者更多在很多情況下也不會(huì )有壞處的!
不僅僅是冗余組件很重要,測試和確保其穩定工作的流程也很重要——例如定期進(jìn)行故障演練,研究新的方法等。
6、監控
監控所有系統的正常運行時(shí)間和監控狀況,將帶來(lái)巨大的正面價(jià)值,但這只是開(kāi)始。你還需要監控帶寬使用了多少,以及電力、存儲、物理機架空間,以及其他數據中心作為一種“商品”提供的任何東西。
還有像Nagios這樣的免費工具監控一些基本細節,更復雜的解決方案如Dranetz測量功率。流程中還包括停電或者低閥值警報——以確保給你的警報上個(gè)保險,這樣就可以是獨立于數據中心的(例如,如果你的電子郵件服務(wù)器是在一個(gè)VMWare ESX主機上,而這個(gè)主機發(fā)生故障,那么另一個(gè)系統應該監控到這個(gè)情況,能夠及時(shí)發(fā)出通知)。
7、可擴展性
所以,今天你的公司需要25臺服務(wù)器用于包括虛擬化、冗余性、文件服務(wù)器、電子郵件、數據庫和分析等一系列任務(wù)?那么你下個(gè)月、明年或者下個(gè)十年需要的是什么?確保你有適當規模的數據中心,足夠擴展的容量以增加電力、網(wǎng)絡(luò )、物理空間和存儲。如果你的數據中心需求不斷增長(cháng)——如果你的公司是盈利的,那么一定會(huì )出現這種情況——那么今天就開(kāi)始做規劃吧。
為可擴展性規劃并不是唯一一件事,這是一個(gè)持續的過(guò)程。明智的企業(yè)會(huì )積極地追蹤和報告這個(gè)理念。我在這些報告中看到了一些參考,其中談到了必須盡快填補關(guān)鍵領(lǐng)域可擴展性中存在的差距。
8、變更管理
你可能會(huì )說(shuō),變更管理應該歸在“策略”一項下,不過(guò)我會(huì )說(shuō)這既是一項策略,也是一種理念。適當變更管理的準則會(huì )確保你那個(gè)尚未規劃、討論和商定提供故障措施或者B計劃的數據中心不會(huì )發(fā)生任何問(wèn)題。不管是引入新系統還是淘汰舊系統,你數據中心所有組件的生命周期都應該與變更管理的前景相符合。
9、布置
我認識的所有IT專(zhuān)業(yè)人員無(wú)不是時(shí)間緊迫的。部署新系統可能結果是由于痛苦的最后期限而砍掉了一些細節——這些細節似乎總是包括一些讓環(huán)境整潔漂亮的東西。
成功的系統實(shí)施并不僅僅意味著(zhù)接入并開(kāi)啟,還包括通過(guò)標準化和可支持的方法把設備集成到數據中心內。你的服務(wù)器機架應該是干凈的、擺放有序的(生產(chǎn)系統在一個(gè)機架,測試系統在另一個(gè)機架)。線(xiàn)纜長(cháng)度適中,遵循布線(xiàn)指南而不是隨意地鋪設。
10、文檔記錄
最后一點(diǎn)是適當的、有益的、及時(shí)的文檔記錄——如果你不嚴格遵循程序的話(huà),你可能在實(shí)施過(guò)程中忽略這一點(diǎn)。只是羅列一堆關(guān)于交換機部署以及服務(wù)器接入的圖表還不夠,你的變更管理指南準則要求文檔記錄應該是具有相關(guān)性的,所有細節涉及到的人員都應該能夠獲得。
也許聽(tīng)上去有些變態(tài),但是我一直堅守“被車(chē)撞”的規則。如果我明天被一輛車(chē)撞到,大家不用擔心我的工作文檔或者個(gè)人文檔是否更新了,因為我每周都會(huì )確保所有變更和調整都被相應地記錄下來(lái)。不夸張地說(shuō),如果我決定換工作地話(huà),我不會(huì )花兩個(gè)星期的時(shí)間在系統保存上。
全部細節
這些理念的好處在于它們是與硬件或者軟件完全無(wú)關(guān)的。無(wú)論你的數據中心包含運行Linux、Windows還是其他操作系統的服務(wù)器,還是僅僅是網(wǎng)絡(luò )交換機和大型機的集合,希望這些對于你和你的企業(yè)都是有用的。
將所有這些結合到一起,把你的IT環(huán)境想象成一個(gè)車(chē)輪,數據中心是樞紐,這10個(gè)要素就是周邊的“輪胎”。