為大數據選擇新的硬件、存儲和其它數據中心基礎設施,這是IT專(zhuān)業(yè)人員們所面臨的新挑戰。
大數據是具備空前規模和形式的非結構化信息。它包括視頻、圖像,以及半結構化的數據(例如在Web上常見(jiàn)的電子郵件和文本)。隨著(zhù)基于傳感器的移動(dòng)Web監視設備和輸出數據越來(lái)越多,可用的數據量將繼續呈指數級增長(cháng)。
推行大數據戰略的壓力往往來(lái)自高層,因為管理者相信,能有效運用數據的企業(yè)將比落后者具備更大優(yōu)勢。大數據戰略需要數據中心基礎架構作出的改變主要有五點(diǎn):
一、支持大數據的硬件
大數據導致的存儲需求量每年都將增長(cháng)60%至80%.鑒于這種快速增長(cháng)和當前的成本限制,IT采購者應選擇在可擴展性和存儲速度上最具成本效益的硬件。類(lèi)似大型機的向上擴展體系結構重新興起,因為它們能夠經(jīng)濟高效地擴展,降低總體擁有成本。同樣,在提升性能方面,固態(tài)硬盤(pán)(SSD)和固態(tài)卡帶都比傳統磁盤(pán)做得更好。
類(lèi)似IBM Netezza和Oracle Exadata的硬件裝置已被證實(shí)能有效兼顧可擴展性和性能。考慮采用硬件裝置來(lái)支持關(guān)鍵大數據業(yè)務(wù),但也應確認設備的架構能在未來(lái)提供快速性能升級。
二、圍繞大數據選擇存儲
在成功的大數據策略下,企業(yè)可以將來(lái)自?xún)炔康母哔|(zhì)量數據與Hadoop挖掘自多個(gè)云供應商的低質(zhì)量數據進(jìn)行整合。這也就改善了業(yè)務(wù)相關(guān)數據的質(zhì)量,讓分散在各地的數據能組織成為具備一致和及時(shí)性的大數據資源。
大數據正在改變中央數據倉儲和松耦合數據集市的決策基礎,后者的存儲庫規模要小得多,既可以替代中央數據倉庫,也可以成為中央數據倉庫的數據源。隨著(zhù)各地辦事機構或者國際子公司的增加,中央管理層在業(yè)務(wù)線(xiàn)擴大的同時(shí)更需要高質(zhì)量的數據來(lái)維持管控力度,避免權力的分散。
新的軟件技術(shù)承擔了繁重的存儲相關(guān)處理工作。由Composite Software(剛剛被Cisco收購)和Denodo提供的數據虛擬化軟件能自動(dòng)發(fā)現數據源并提取數據充實(shí)全局元數據存儲庫,為整個(gè)組織提供跨越內部和外部的所有數據的公共數據庫外觀(guān)和體驗。主數據管理軟件通過(guò)創(chuàng )建公用主記錄提高了數據質(zhì)量,消除了費時(shí)的數據倉庫檢索。
企業(yè)Web外鏈需求加深了對公眾和混合云的依賴(lài)。許多大型企業(yè)發(fā)現他們需要來(lái)自于多個(gè)云供應商的大數據,卻不能指望供云應商會(huì )負責整合這些數據。企業(yè)只能從數據虛擬化供應商尋求工具來(lái)跨多個(gè)云整合大數據。
三、利用SSD的存儲分層策略
存儲成本很高,而且越快的存儲也就越昂貴。最重要的是,大數據要求存儲同時(shí)提供大容量和“大”性能。存儲分層在存儲資源池中提供多種成本/性能選項,從昂貴的高性能固態(tài)存儲到傳統的串行SCSI(SAS)磁盤(pán)存儲,這些選項的組合降低了總擁有成本。在主內存和磁盤(pán)之間增加一個(gè)固態(tài)層將有助于將大數據任務(wù)的性能維持在高位,而且不會(huì )引起存儲成本失控。
SSD的用量應遵從“90-10”的存儲分層規則:成本和速度的最佳組合比例是:使用大約10%的SSD和90%的機械硬盤(pán)。這一策略讓IT公司用僅增加10%成本的代價(jià)就能獲得90%以上的性能提升。主內存和SSD的容量比例也遵從同樣的規則。
由于SSD的性能價(jià)格比的提升速度超過(guò)傳統磁盤(pán)(容量提升,價(jià)格降低),預計在不久的將來(lái)傳統磁盤(pán)和SSD的配置比例會(huì )變?yōu)樽裱?0-20的規則。
IBM BLU Acceleration這類(lèi)最新的縱列和內存數據庫設施能利用SSD獲得遠超傳統磁盤(pán)的性能,它們的設計能夠有效發(fā)揮SSD這類(lèi)“扁平化磁盤(pán)”的優(yōu)勢。
四、大數據分析和報告能力
雖然嵌入式分析工具已經(jīng)可以利用報告和自動(dòng)優(yōu)化功能改善業(yè)務(wù)流程,但大數據再次改變了分析規則。例如,和傳統上對單個(gè)客戶(hù)進(jìn)行主要行為分析洞察相比,大數據戰略能為每個(gè)客戶(hù)創(chuàng )建一個(gè)迭代和洞察分析線(xiàn)程,讓公司能跟蹤客戶(hù)并更好地維持與所有客戶(hù)的長(cháng)期關(guān)系。
典型的大數據分析從業(yè)人員被稱(chēng)為數據科學(xué)家,和常規的IT主管不同,他們更可能同時(shí)擔任CMO(營(yíng)銷(xiāo)總監)。然而,IT專(zhuān)業(yè)人員必須明白他們公司的大數據策略對數據科學(xué)家的工作產(chǎn)生的影響。
這意味著(zhù)需要在自動(dòng)化的報告和嵌入分析之外人工添加第三方審議內容:專(zhuān)設和松散耦合分析。支持專(zhuān)設查詢(xún)的分析和統計工具是必要的軟件前提。許多傳統IT供應商以及云供應商——如IBM、Cognos和Birst——正在擴充這些功能。
五、企業(yè)中的Hadoop
Hadoop為數據密集型應用提供“緊貼著(zhù)”MapReduce文件系統處理程序框架的分布式文件系統。此文件系統支持針對富文本數據的并行事務(wù)擴展,例如社交媒體數據。
許多IT公司通過(guò)在企業(yè)內創(chuàng )建自己的Hadoop版本來(lái)解決從Web獲取Hadoop數據源的問(wèn)題。然而,缺乏專(zhuān)業(yè)知識是一種挑戰:精通這種發(fā)展中的Web數據管理框架的專(zhuān)業(yè)和藝術(shù)的IT管理人員猶如鳳毛麟角。
組織開(kāi)發(fā)他們自己的數據管理工具時(shí)應該留意,如IBM、Oracle和EMC的這些主要供應商,往往既提供專(zhuān)有產(chǎn)品用于訪(fǎng)問(wèn)Hadoop數據,也可進(jìn)行定制開(kāi)發(fā),讓IT公司不需要專(zhuān)門(mén)的數據歸納措施就能訪(fǎng)問(wèn)需要的數據。如果您決定搭建自己的數據平臺,供應商也提供整合服務(wù),使Hadoop更貼合現有IT資源來(lái)高效運作。
每個(gè)公司圍繞大數據的相關(guān)決策都會(huì )有所不同。請記住,隨著(zhù)圍繞大數據的技術(shù)演變,大數據戰略也應當及時(shí)調整,與時(shí)俱進(jìn)。