大數據作為在復雜多樣的大量數據中創(chuàng )造價(jià)值的一項戰略,使得特定行業(yè)中的組織機構在了解客戶(hù)、部署產(chǎn)品,以及運營(yíng)業(yè)務(wù)的方式正在發(fā)生改變。
大數據的發(fā)展使得各種組織開(kāi)始應用如ApacheHadoop框架不同的數據處理及存儲技術(shù),而不僅僅采用SQL(NoSQL)數據存儲等大數據管理、處理和分析解決方案。
什么是大數據?
截止到2014年,每一天都有25億GB的數據產(chǎn)生。在過(guò)去的十年中,技術(shù)進(jìn)步幫助創(chuàng )造了連續數據流。數據的產(chǎn)生有多種方式,包括:上網(wǎng)瀏覽,智能手機的信息交流,數字業(yè)務(wù)流程,社會(huì )媒體的活動(dòng),以及針對建筑、產(chǎn)品和人的傳感器的數據。
數據在數量、速度和多樣性方面呈爆炸式增長(cháng),因此被稱(chēng)之為大數據。
(1)數量。數量是指所有產(chǎn)生的數據量。十年前,數據存儲和分析都是用TB字節進(jìn)行計數。而如今,企業(yè)至少需要PB級的存儲需求。
(2)速度。數據的速度既表示數據的移動(dòng)量,又表示數據的吞吐量。第一個(gè)表示數據的移動(dòng)量(以GB或TB/秒來(lái)衡量),第二個(gè)是表示數據提取和數據分析(以毫秒計)之間的延遲。
(3)多樣性。多樣性是指數據量和數據的異質(zhì)性(結構化、半結構化或非結構化)。
捕捉、處理、存儲和分析數據的需求促進(jìn)了新技術(shù)的產(chǎn)生,這其中包括使用NoSQL數據存儲、大規模并行處理(MPP),以及存儲和分布式系統等。
大數據的雙重性
由于數據中心是數據存儲公司的核心,自然大數據會(huì )對其公司戰略產(chǎn)生深刻影響。雖然一開(kāi)始人們可能覺(jué)得大數據對數據中心的影響只是在存儲方面,但專(zhuān)家認為大數據的影響則要大得多,并且影響到數據中心的多個(gè)方面。
例如大數據在一級方程式賽車(chē)(F1)賽事中的應用。蓮花F1車(chē)隊就建立了自己的私有云,通過(guò)運行50個(gè)虛擬服務(wù)器來(lái)分析每一場(chǎng)比賽。在賽車(chē)的每一圈中,團隊都要收集和分析他們每一輛賽車(chē)中250個(gè)傳感器傳來(lái)的30MB的數據。
因此,在最后的蒙扎大獎賽中,蓮花F1車(chē)隊實(shí)時(shí)處理分析的數據超過(guò)了3TB。因此這給人們一個(gè)提示,大數據和數據中心之間的復雜關(guān)系所面臨的挑戰,不僅要具有適當的架構,還要能夠處理好帶寬和數據流的工作。專(zhuān)家已經(jīng)確認了大數據對數據中心的兩個(gè)影響:大數據在數據中心基礎設施中維護需求的來(lái)源復雜性,以及大數據驅使數據中心的優(yōu)化。
大數據來(lái)源的復雜性
大數據對數據中心基礎設施的影響三個(gè)方面:
(1)不斷增長(cháng)的數據存儲需求;
(2)增加內部和數據中心外部的數據傳輸的需求;
(3)增加對高密度和或無(wú)架構(或非關(guān)系)計算環(huán)境的需求。
這三個(gè)因素正在推動(dòng)數據中心部署更多的機架、布線(xiàn)和服務(wù)器,并改善其基礎設施以應對大數據的需求。數據中心還需要更多的服務(wù)器進(jìn)行存儲和處理,并對大量數據進(jìn)行安全分析。還要增加電力容量和制冷設施以滿(mǎn)足電力和冷卻的需求。機架和布線(xiàn)中的情況也是如此。
隨著(zhù)全球對大數據的需求,數據中心基礎設施將變得比以往更加重要,雖然其最初的重點(diǎn)是大數據軟件。然而,資源的稀缺性對數據中心架構來(lái)說(shuō)更具有挑戰性。專(zhuān)家指出,人們正在利用大數據技術(shù)尋找有效的方法,以平衡能源和資源之間的關(guān)系。
大數據的優(yōu)化
如今,企業(yè)之間在基礎設施和運營(yíng)管理競爭是一個(gè)常見(jiàn)問(wèn)題。數據中心基礎設施組件(如存儲設備、服務(wù)器、網(wǎng)絡(luò )設備、機架、電源和冷卻系統、虛擬化、云計算,等等),每天都會(huì )產(chǎn)生這些組件的運行狀況成千上萬(wàn)的提示信息,以及性能和可用性報告。然而分析所有這些提示和報告以提高運營(yíng)效率,這個(gè)過(guò)程費時(shí)費力,成本高昂,因此不能被有效地由IT人員人工完成。
數據中心基礎設施的動(dòng)態(tài)觀(guān)察是一個(gè)漸進(jìn)的過(guò)程。因此,要在整個(gè)數據中心基礎設施部署大量傳感器。技術(shù)人員的目標是能夠收集數據中心的關(guān)鍵信息,如溫度,濕度和氣流等等。這些信息可以提高監測和分析數據中心現有的技術(shù)能力(機箱或服務(wù)器硬件和軟件,如DCIM)。
該儀器可以被理解為一個(gè)場(chǎng)景中有多個(gè)信息源(傳感器和信息管理系統),其中的數據分析是連續不斷(實(shí)時(shí)流媒體),因此產(chǎn)生了大量的數據。
大數據正在成為分析數據中心全生命周期的解決方案,能使數據中心得到進(jìn)一步優(yōu)化、操作和設計。這種價(jià)值不僅僅是來(lái)自大數據技術(shù);它還可以作為提高性能的應用分析模型。該應用包括IT運營(yíng)分析、虛擬化基礎設施的監測、環(huán)境監測(或綠色IT),以及操作系統分析等。
大數據分析的好處
部署大數據分析的好處是多方面的,其中包括:
(1)獲得跨數據中心基礎設施的運營(yíng)可視性。
(2)監控基礎設施的實(shí)時(shí)和關(guān)聯(lián)跨層事件。
(3)與歷史數據相結合,解決流數據檢測模式和阻止性能差的問(wèn)題。
大數據被要求成為一個(gè)數據中心變革者的組織管理和優(yōu)化方式。但公司是否真正意識到對大數據對數據中心的影響?更重要的是,他們如何應對這種影響?然而不管怎么說(shuō),大數據已經(jīng)在數據中心中贏(yíng)得了一席之地。