探秘浪潮大數(shù)據(jù)一體機(jī)的存儲(chǔ)高招

2015-01-05 09:36:19 作者：來源：CTI論壇評(píng)論：0 　點(diǎn)擊：

　　大數(shù)據(jù)由于與智慧城市、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)等前景廣闊的項(xiàng)目息息相關(guān)，成為時(shí)下最炙手可熱的IT技術(shù)。在此背景下，眾多的IT廠商紛紛推出基于Hadoop的大數(shù)據(jù)一體機(jī)，力圖表明已經(jīng)做好準(zhǔn)備迎接大數(shù)據(jù)時(shí)代。不過，大部分IT廠商談及的幾乎都是產(chǎn)品特點(diǎn)和市場(chǎng)表現(xiàn)，一旦涉及具體的技術(shù)細(xì)節(jié)都深藏不露，例如近年來，Erasure Code作為可有效提升存儲(chǔ)效率、安全性和便捷性的新興存儲(chǔ)技術(shù)，備受IT和互聯(lián)網(wǎng)業(yè)界青睞，但卻對(duì)此技術(shù)秘而不宣。近日，筆者有機(jī)會(huì)近距離接觸到浪潮云海大數(shù)據(jù)一體機(jī)SDA60000，對(duì)Erasure Code在這款產(chǎn)品中的應(yīng)用細(xì)節(jié)探了一回究竟。

　　眾所周知，Hadoop之所以問世，很大一部分原因是為了解決數(shù)據(jù)的分布式存儲(chǔ)問題。由此可見，存儲(chǔ)在整個(gè)Hodoop體系下的地位有多么重要。SDA60000作為一款面向大數(shù)據(jù)分析、處理的軟硬一體化產(chǎn)品，在存儲(chǔ)方面做了針對(duì)性的設(shè)計(jì)：硬件上使用了大容量的SATA硬盤，單機(jī)柜可提供700TB以上的裸容量；軟件方面，部署了浪潮在開源Hadoop基礎(chǔ)上做了深度優(yōu)化后的浪潮云谷一體機(jī)系統(tǒng)軟件，通過HDFS文件系統(tǒng)實(shí)現(xiàn)對(duì)海量數(shù)據(jù)的快速存儲(chǔ)。這其中，Erasure code的巧妙使用，使得HDFS的存儲(chǔ)機(jī)制得到了進(jìn)一步改良。

　　Erasure Code：互聯(lián)網(wǎng)巨頭們的“最愛”

　　Erasure Code 最早是無線通信中有噪信道編碼的一種，也叫糾刪碼。Erasure Code設(shè)計(jì)的初衷，是希望利用這項(xiàng)技術(shù)將數(shù)據(jù)分割成不可識(shí)別的數(shù)據(jù)塊，使用額外的信息追加到每個(gè)數(shù)據(jù)塊中，允許從一些數(shù)據(jù)塊的子集就可以復(fù)原完整的數(shù)據(jù)集，數(shù)據(jù)塊可以分布在一個(gè)數(shù)據(jù)中心、城市、地區(qū)或全球任何地方的不同存儲(chǔ)位置。這種方式將大大提升數(shù)據(jù)存儲(chǔ)的便利性和安全性。

　　從某種程度而言，Erasure Code 是對(duì)RAID 5 算法的改良和優(yōu)化。最常見的Erasure Code是Reed Solomon算法。如圖1所示，假設(shè)總共有n塊數(shù)據(jù)，其中k塊用來存放數(shù)據(jù)，m塊用來存儲(chǔ)erasure編碼（k+m=n），只要壞掉的數(shù)據(jù)塊數(shù)量不超過m塊，都可以通過erasure編碼將其余的恢復(fù)出來。也就是說，通常k+m的erasure編碼，能容m塊數(shù)據(jù)故障的場(chǎng)景，這時(shí)候的存儲(chǔ)成本是1+m/k，通常m<k。因此，通過erasure編碼，我們能夠把副本數(shù)降到1.x。

　　圖1 Reed Solomon Erasure Code 算法

　　當(dāng)前，Microsoft、Google、Facebook、Amazon、淘寶等互聯(lián)網(wǎng)巨頭早已開始研究Erasure code編碼存儲(chǔ)技術(shù)，并將其實(shí)際應(yīng)用到各自主流存儲(chǔ)系統(tǒng)中。

　　Google GFS II中采用了最基本的RS（6，3）編碼，將一個(gè)待編碼數(shù)據(jù)單元（Data Unit）分為6個(gè)數(shù)據(jù)塊（data block），再添加3個(gè)校驗(yàn)塊（parity block），最多可容包括校驗(yàn)塊在內(nèi)的任意3個(gè)數(shù)據(jù)塊錯(cuò)誤。

　　微軟在其云存儲(chǔ)平臺(tái)Windows Azure Storage中將校驗(yàn)塊分為全局校驗(yàn)塊、局部校驗(yàn)塊。當(dāng)發(fā)生任何一個(gè)數(shù)據(jù)塊錯(cuò)誤時(shí)，恢復(fù)代價(jià)由傳統(tǒng)RS（12，4）編碼的12（通過網(wǎng)絡(luò)傳輸?shù)臄?shù)據(jù)塊數(shù)量），變?yōu)?，恢復(fù)過程的網(wǎng)絡(luò)I/O開銷減半。

　　Facebook HDFS RAID的早期編碼方式是RS（10，4），為減少數(shù)據(jù)恢復(fù)的網(wǎng)絡(luò)I/O，F(xiàn)acebook于VLDB 2013發(fā)表名為“XORing Elephants”的LRC編碼方法，除了在原先的10個(gè)數(shù)據(jù)塊之后添加4個(gè)校驗(yàn)塊外，還將10個(gè)數(shù)據(jù)塊均分為2組，每組單獨(dú)計(jì)算出一個(gè)局部校驗(yàn)塊，將數(shù)據(jù)恢復(fù)代價(jià)由原來的10降低為5。

　　采眾家之長(zhǎng) 浪潮SDA60000中的Erasure Code

　　當(dāng)然，天下沒有免費(fèi)的午餐，HDFS Erasure Code在提升存儲(chǔ)空間利用率的同時(shí)，由于數(shù)據(jù)校驗(yàn)塊的計(jì)算需要額外的CPU時(shí)間，加上完整的數(shù)據(jù)塊只有一份，在高并發(fā)讀取時(shí)效果不理想。故此，應(yīng)用Erasure Code需根據(jù)數(shù)據(jù)量和性能需求制定有針對(duì)性的策略：對(duì)于數(shù)據(jù)量大，存儲(chǔ)空間緊張，訪問頻度低的數(shù)據(jù)采用Erasure Code方式。

　　浪潮云海大數(shù)據(jù)一體機(jī)SDA60000借鑒了各大廠商的研發(fā)和優(yōu)化經(jīng)驗(yàn)，采用Erasure code對(duì)HDFS的存儲(chǔ)機(jī)制進(jìn)行改良，它采用的RS因子為RS（10，4），即為每10個(gè)數(shù)據(jù)塊生成4個(gè)校驗(yàn)塊，每個(gè)集群可容忍最多4個(gè)節(jié)點(diǎn)失效，數(shù)據(jù)冗余度為1.4。通過Erasure code技術(shù)，SDA60000在保證了數(shù)據(jù)容錯(cuò)的基礎(chǔ)上大幅提升了存儲(chǔ)空間利用率。

　　圖2 SDA60000 Erasure Code 策略

　　如圖2所示，浪潮云海大數(shù)據(jù)一體機(jī)SDA60000可為HDFS的每一個(gè)目錄制定靈活的Erasure Code策略，通過制定RAID間隔，SDA 60000可以實(shí)時(shí)偵測(cè)特定目錄中數(shù)據(jù)的冷熱程度，當(dāng)系統(tǒng)發(fā)現(xiàn)某些數(shù)據(jù)在很長(zhǎng)一段時(shí)間沒有被訪問時(shí)，自動(dòng)將底層的存儲(chǔ)機(jī)制從默認(rèn)的三副本轉(zhuǎn)化為Erasure Code，以提升文件系統(tǒng)的空間利用率。

　　在實(shí)際應(yīng)用中HDFS Erasure Code功能非常適合海量歷史數(shù)據(jù)的存儲(chǔ)，是圖片視頻數(shù)據(jù)，音頻數(shù)據(jù)和日志數(shù)據(jù)理想的動(dòng)態(tài)歸檔方案，在政府、公安、醫(yī)療和科研等行業(yè)具有廣泛的應(yīng)用前景。

　　相對(duì)于傳統(tǒng)的業(yè)務(wù)系統(tǒng)，大數(shù)據(jù)分析系統(tǒng)對(duì)于數(shù)據(jù)可用性和數(shù)據(jù)處理性能要求更為苛刻，浪潮云海大數(shù)據(jù)一體機(jī)將進(jìn)一步發(fā)揮其軟硬件一體的優(yōu)勢(shì)，一方面，優(yōu)化軟件算法并針對(duì)硬件情況調(diào)優(yōu)參數(shù)，另一方面，借助于浪潮強(qiáng)大的硬件研發(fā)能力，通過FPGA（Field－Programmable Gate Array）加速卡，SSD緩存加速等技術(shù)加速編碼速度，提升磁盤IO性能。

　　浪潮是領(lǐng)先的云數(shù)據(jù)產(chǎn)品及方案供應(yīng)商，目前已全面涉足軟件定義數(shù)據(jù)中心，強(qiáng)調(diào)以硬件重構(gòu)和軟件定義相結(jié)合的融合架構(gòu)，來實(shí)現(xiàn)數(shù)據(jù)中心所有資源的全虛擬化、全自動(dòng)化，更好的滿足大數(shù)據(jù)、云計(jì)算應(yīng)用對(duì)IT基礎(chǔ)架構(gòu)的要求。浪潮云海大數(shù)據(jù)一體機(jī)SDA60000作為一款融合架構(gòu)產(chǎn)品，將是未來軟件定義數(shù)據(jù)中心支撐平臺(tái)的重要選擇之一。

相關(guān)熱詞搜索：浪潮大數(shù)據(jù) 存儲(chǔ)一體機(jī)

上一篇:回顧2014移動(dòng)醫(yī)療：資本蜂擁巨頭入場(chǎng)

下一篇:最后一頁

相關(guān)閱讀：

·浪潮云海IOP支撐山東旅游業(yè)監(jiān)測(cè)平臺(tái)上線2015-01-05 09:13:16
·2014，浪潮踐行以數(shù)據(jù)為核心的云戰(zhàn)略2015-01-04 09:48:55
·浪潮集團(tuán)臺(tái)北研發(fā)中心正式落地2014-12-29 10:12:25
·聯(lián)想浪潮掐架：哪個(gè)熊孩子倒霉了？2014-12-26 13:42:03
·浪潮SSR重塑合肥工業(yè)云平臺(tái)安全2014-12-22 09:23:01
·浪潮集團(tuán)（臺(tái)北）研發(fā)中心正式落地2014-12-18 09:35:50
·浪潮CEO孫丕恕出席2014兩岸企業(yè)家峰會(huì)并做主題演講2014-12-18 09:25:50
·浪潮云智聯(lián)盟構(gòu)建“云伙伴”生態(tài)圈2014-12-16 09:44:23
·浪潮領(lǐng)跑全球服務(wù)器市場(chǎng)增長(zhǎng) 大舉招募渠道共繪云圖2014-12-10 10:18:04
·浪潮袁誼生：以數(shù)據(jù)為中心推動(dòng)軟件服務(wù)業(yè)創(chuàng)新發(fā)展2014-12-08 10:06:10

分享到：

評(píng)論排行

專題

文思海輝-乘數(shù)據(jù)之...: 為解決中國(guó)金融機(jī)構(gòu)在發(fā)展中所面臨的新問題，文思海輝在...[詳細(xì)]

2014中國(guó)(第十屆)...: 由國(guó)家級(jí)行業(yè)協(xié)會(huì)中國(guó)電子商會(huì)呼叫中心與客戶關(guān)系管理專...[詳細(xì)]

2014中國(guó)(第十屆)...: 由國(guó)家級(jí)行業(yè)協(xié)會(huì)中國(guó)電子商會(huì)呼叫中心與客戶關(guān)系管理專...[詳細(xì)]

“那些年，我們一...: 歡迎加入到此次由CTI論壇和長(zhǎng)虹佳華舉辦的IP Office征...[詳細(xì)]

點(diǎn)擊排行
周排行
月排行

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

探秘浪潮大數(shù)據(jù)一體機(jī)的存儲(chǔ)高招

評(píng)論排行

推薦閱讀

專題