醫(yī)療大數(shù)據(jù)專家：淺談醫(yī)學(xué)大數(shù)據(jù)

2015-03-26 10:06:29 作者：來源：36氪評論：0 　點(diǎn)擊：

　　圖六

　　圖五和圖六都顯示了最流行的平臺(tái)和數(shù)據(jù)處理方式為開源免費(fèi)的 Hadoop 和 MapReduce。伴隨著他們的潛在成長和承諾程度，可以預(yù)見，Hadoop 和 MapReduce 正在并會(huì)繼續(xù)推動(dòng)和促進(jìn)大數(shù)據(jù)的處理和應(yīng)用。

　　在此，我們簡單介紹一下 Hadoop 和 MapReduce 的概念。Hadoop 是一種基于 Java 的分散式數(shù)據(jù)處理框架。它可以提供對儲(chǔ)存在多個(gè)硬件設(shè)備上的數(shù)據(jù)進(jìn)行高吞吐率的讀寫。更重要的是，它對大數(shù)據(jù)具有高容錯(cuò)性和對并行應(yīng)用程序的高可用性。Hadoop 框架結(jié)構(gòu)由若干名字節(jié)點(diǎn)（NameNode）和數(shù)據(jù)節(jié)點(diǎn)（DataNode）組成。一份數(shù)以萬計(jì)，百萬計(jì)的大數(shù)據(jù)文件會(huì)被分割成更小的文件信息塊儲(chǔ)存在多個(gè)數(shù)據(jù)節(jié)點(diǎn)里，可以是任何計(jì)算機(jī)硬件設(shè)備。

　　有關(guān)這些文件的數(shù)據(jù)屬性資料信息稱作 metadata 則被存儲(chǔ)在名字節(jié)點(diǎn)里（NameNode）。 NameNode 主要管理文件系統(tǒng)的命名空間和客戶端對文件的訪問操作記錄。Hadoop 的框架結(jié)構(gòu)如圖七：

　　圖七

　　當(dāng)訪問和操作數(shù)據(jù)文件時(shí)，客戶端會(huì)聯(lián)系名字節(jié)點(diǎn)提取文件信息塊的屬性信息比如位置，文件名等。然后根據(jù)這些屬性信息，客戶端直接從相應(yīng)的數(shù)據(jù)節(jié)點(diǎn)同時(shí)讀取數(shù)據(jù)塊。Hadoop 本身具有冗余和復(fù)制功能，保證在單個(gè)硬件儲(chǔ)存設(shè)備出現(xiàn)故障時(shí)數(shù)據(jù)仍舊能被恢復(fù)而沒有任何損失，比如每個(gè)數(shù)據(jù)節(jié)點(diǎn)默認(rèn)擁有3個(gè)備份之類。

　　此外，在有新數(shù)據(jù)節(jié)點(diǎn)添加到框架中時(shí)，Hadoop 還可以自動(dòng)平衡每個(gè)數(shù)據(jù)節(jié)點(diǎn)的數(shù)據(jù)載有量。同樣，名字節(jié)點(diǎn)也可以擁有冗余和復(fù)制功能，用于在單個(gè)儲(chǔ)存數(shù)據(jù)屬性信息的名字節(jié)點(diǎn)出現(xiàn)故障時(shí)可以恢復(fù)相應(yīng)的數(shù)據(jù)屬性信息。

　　MapReduce 則是一種可以用來并行處理大數(shù)據(jù)的編程模型。同一程序在 Hadoop 的框架下可以用各種不同的語言（Java,Ruby,Python 等）按 MapReduce 的編程模型進(jìn)行編寫和運(yùn)行。其關(guān)鍵就在于三個(gè)詞： map,reduce, 和并行處理。我們通過一個(gè)例子來理解 MapReduce 的大致工作原理。比如我們有一30個(gè)字的字符串“開落花纏落花繞纏開繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”，任務(wù)是計(jì)算每個(gè)字出現(xiàn)的次數(shù)。

　　最簡單的方法是按序讀取每一個(gè)字建立標(biāo)識(shí)索引并計(jì)算出現(xiàn)的次數(shù)值存入內(nèi)存，如果是新字，值為1，如果是出現(xiàn)過的字則次數(shù)值累加上去。此種方式是按串行的方式進(jìn)行的，所花的時(shí)間會(huì)隨著字符串的長度和復(fù)雜度程線性增長。當(dāng)字符串是以萬計(jì)百萬計(jì)時(shí)，比如基因組數(shù)據(jù)，所花的時(shí)間將是相當(dāng)驚人的。并行處理則能節(jié)約相當(dāng)多的時(shí)間。

　　我們先把原文件分割到幾個(gè)小文件塊，然后對每個(gè)小文件塊進(jìn)行字的標(biāo)識(shí)索引和附加數(shù)值（這兒不進(jìn)行累計(jì)，只是簡單的單次點(diǎn)數(shù)），然后再排序重組把相同字放在一起，然后我們再用縮減法計(jì)算出字及其相應(yīng)的出現(xiàn)次數(shù)值。圖八顯示了具體的例子步驟：

　　圖八