• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 新聞 > 國內 >

    醫療大數據專(zhuān)家:淺談醫學(xué)大數據

    2015-03-26 10:06:29   作者:   來(lái)源:36氪   評論:0  點(diǎn)擊:


      圖六

      圖五和圖六都顯示了最流行的平臺和數據處理方式為開(kāi)源免費的 Hadoop 和 MapReduce。伴隨著(zhù)他們的潛在成長(cháng)和承諾程度,可以預見(jiàn),Hadoop 和 MapReduce 正在并會(huì )繼續推動(dòng)和促進(jìn)大數據的處理和應用。

      在此,我們簡(jiǎn)單介紹一下 Hadoop 和 MapReduce 的概念。Hadoop 是一種基于 Java 的分散式數據處理框架。它可以提供對儲存在多個(gè)硬件設備上的數據進(jìn)行高吞吐率的讀寫(xiě)。更重要的是,它對大數據具有高容錯性 和對并行應用程序的高可用性。Hadoop 框架結構由若干名字節點(diǎn)(NameNode)和數據節點(diǎn)(DataNode)組成。一份數以萬(wàn)計,百萬(wàn)計的大數據文件會(huì )被分割成更小的文件信息塊儲存在多個(gè)數據節點(diǎn)里,可以是任何計算機硬件設備。

      有關(guān)這些文件的數據屬性資料信息稱(chēng)作 metadata 則被存儲在名字節點(diǎn)里(NameNode)。 NameNode 主要管理文件系統的命名空間和客戶(hù)端對文件的訪(fǎng)問(wèn)操作記錄。Hadoop 的框架結構如圖七:

      圖七

      當訪(fǎng)問(wèn)和操作數據文件時(shí),客戶(hù)端會(huì )聯(lián)系名字節點(diǎn)提取文件信息塊的屬性信息比如位置,文件名等。然后根據這些屬性信息,客戶(hù)端直接從相應的數據節點(diǎn)同時(shí)讀取數據塊。Hadoop 本身具有冗余和復制功能,保證在單個(gè)硬件儲存設備出現故障時(shí)數據仍舊能被恢復而沒(méi)有任何損失,比如每個(gè)數據節點(diǎn)默認擁有3個(gè)備份之類(lèi)。

      此外,在有新數據節點(diǎn)添加到框架中時(shí),Hadoop 還可以自動(dòng)平衡每個(gè)數據節點(diǎn)的數據載有量。同樣,名字節點(diǎn)也可以擁有冗余和復制功能,用于在單個(gè)儲存數據屬性信息的名字節點(diǎn)出現故障時(shí)可以恢復相應的數據屬性信息。

      MapReduce 則是一種可以用來(lái)并行處理大數據的編程模型。同一程序在 Hadoop 的框架下可以用各種不同的語(yǔ)言(Java,Ruby,Python 等)按 MapReduce 的編程模型進(jìn)行編寫(xiě)和運行。其關(guān)鍵就在于三個(gè)詞: map,reduce, 和并行處理。我們通過(guò)一個(gè)例子來(lái)理解 MapReduce 的大致工作原理。比如我們有一30個(gè)字的字符串“開(kāi)落花纏落花繞纏開(kāi)繞笑瓜夜村村舍舍瓜夜藤繞下下藤繞嬉嬉笑娃娃”,任務(wù)是計算每個(gè)字出現的次數。

      最簡(jiǎn)單的方法是按序讀取每一個(gè)字建立標識索引并計算出現的次數值存入內存,如果是新字,值為1,如果是出現過(guò)的字則次數值累加上去。此種方式是按串行的方式進(jìn)行的,所花的時(shí)間會(huì )隨著(zhù)字符串的長(cháng)度和復雜度程線(xiàn)性增長(cháng)。當字符串是以萬(wàn)計百萬(wàn)計時(shí),比如基因組數據,所花的時(shí)間將是相當驚人的。 并行處理則能節約相當多的時(shí)間。

      我們先把原文件分割到幾個(gè)小文件塊,然后對每個(gè)小文件塊進(jìn)行字的標識索引和附加數值(這兒不進(jìn)行累計,只是簡(jiǎn)單的單次點(diǎn)數),然后再排序重組把相同字放在一起,然后我們再用縮減法計算出字及其相應的出現次數值。圖八顯示了具體的例子步驟:

      圖八

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 石楼县| 高平市| 邯郸县| 望奎县| 怀集县| 神农架林区| 兴化市| 游戏| 加查县| 岳阳市| 恭城| 高州市| 宜章县| 澄城县| 静海县| 潢川县| 庐江县| 平乡县| 循化| 黄浦区| 荔浦县| 广州市| 仙桃市| 仁怀市| 射洪县| 谷城县| 论坛| 江永县| 堆龙德庆县| 聊城市| 萝北县| 晋宁县| 通州市| 济源市| 田东县| 房山区| 邵阳县| 田林县| 麟游县| 关岭| 林周县| http://444 http://444 http://444 http://444 http://444 http://444