現在無(wú)論國內外均出現了移動(dòng)醫療熱,所有的創(chuàng )業(yè)團隊和投資公司均把商業(yè)模式指向了最后的醫療大數據分析。但是可以很負責任的說(shuō),90%以上的人都不知道醫療大數據分析是什么東西,因此這是一篇掃盲貼,但是僅供專(zhuān)業(yè)人士。文中分析了醫療大數據、它的維度、方法和成本,以及需要的專(zhuān)業(yè)人才。本文無(wú)論是對創(chuàng )業(yè)團隊還是投資機構都是非常有指導意義的。
大數據定義及其特征
大數據顧名思義就是數量極其龐大的數據資料。從上世紀80年代開(kāi)始,每隔40個(gè)月世界上儲存的人均科技信息量就會(huì )翻倍 (Hibert & Lopez, 2011)。2012年,每天會(huì )有2.5EB量的數據產(chǎn)生(Andrew & Erik, 2012)。現在2014年,每天會(huì )有 2.3ZB 量的數據產(chǎn)生(IBM, 2015)。這是一個(gè)什么概念? 現在一般我們電腦的硬盤(pán)大小都以GB,或者TB為單位了。1GB的容量可以?xún)Υ婕s5.4億的漢字,或者170張普通數碼相機拍攝的高精度照片,或者300-350首長(cháng)度為5-6分鐘的MP3歌曲。 那GB和TB, EB,ZB 的關(guān)系又是怎樣?
1ZB=1024EB=10242PB=10243TB=10244GB。如果你有一臺1TB硬盤(pán)容量的電腦,那1ZB就是大致等于10億臺電腦的容量, 遠遠超出了我們一般的想象。
早期,IBM定義了大數據的特性有3個(gè):大量性( Volume), 多樣性(Variety), 快速性(Velocity) (Zikopoulos, Eaton, deRooos, Deutsch, & Lapis, 2012)。后來(lái)又有學(xué)者把價(jià)值(Value)加到大數據的特性里。隨著(zhù)時(shí)間的推移和人們思考的進(jìn)一步完善,又有三個(gè)大數據的特性被提出: 易變性(Variability),準確性(Veracity)和復雜性(Complexity)。
作者認為價(jià)值本質(zhì)上是數據被分析后體現出來(lái)的有用信息知識的程度,和其他幾個(gè)特性有根本區別。其他幾個(gè)特性可以說(shuō)是數據工作者具體實(shí)踐中面臨的挑戰,而價(jià)值則是征服這些挑戰后獲得的回報。
大數據的6個(gè)特性描述如下:
大量性:一般在大數據里,單個(gè)文件大量性的級別至少為幾十,幾百GB以上,一調查(Russom, 2013)顯示相當多的機構擁有的數據總量在10到99TB之間。用我們傳統的數據庫軟件,1GB已經(jīng)可以?xún)Υ媲f(wàn)條有著(zhù)幾百個(gè)變量的數據記錄了。
多樣性:泛指數據類(lèi)型及其來(lái)源的多樣化 (Troester, 2012),進(jìn)一步可以把數據結構歸納為結構化(structured),半結構化(semi-structured),和非結構化(unstructured)(SAS, 2014) 。
快速性:反映在數據的快速產(chǎn)生及數據變更的頻率上。比如一份哈佛商學(xué)院的研究報告稱(chēng)在2012年時(shí),谷歌每天就需要要處理20PB的數據(Harvard Business Review, 2012)。
易變性:伴隨數據快速性的特征,數據流還呈現一種波動(dòng)的特征。不穩定的數據流會(huì )隨著(zhù)日,季節,特定事件的觸發(fā)出現周期性峰值 (Troester, 2012)。
準確性:又稱(chēng)為數據保證(data assurance)。不同方式,渠道收集到的數據在質(zhì)量上會(huì )有很大差異。數據分析和輸出結果的錯誤程度和可信度在很大程度上取決于收集到的數據質(zhì)量的高低(W.Raghupathi & Raghupathi, 2014)。所謂“垃圾進(jìn),垃圾出”。沒(méi)有數據保證,大數據分析就毫無(wú)意義。
復雜性:復雜性體現在數據的管理和操作上。IT 時(shí)代,隨著(zhù)數據來(lái)源及數據量的爆發(fā),各種不同渠道數據的大量涌現,數據的管理和操作已經(jīng)變得原來(lái)越復雜。如何抽取,轉換,加載,連接,關(guān)聯(lián)以把握數據內蘊的有用信息已經(jīng)變得越來(lái)越有挑戰性。
醫療大數據的爆發(fā)
早期,大部分醫療相關(guān)數據是紙張化的形式存在,而非電子數據化存儲, 比如官方的醫藥記錄,收費記錄,護士醫生手寫(xiě)的病例記錄,處方藥記錄,X 光片記錄,磁共振成像(MRI)記錄,CT 影像記錄等等。
隨著(zhù)強大的數據存儲,計算平臺,及移動(dòng)互聯(lián)網(wǎng)的發(fā)展,現在的趨勢是醫療數據的大量爆發(fā)及快速的電子數字化。以上提到的醫療數據都在不同程度上向數字化轉化。
有報告顯示,2011年,單單美國的醫療健康系統數據量就達到了150EB。照目前的增長(cháng)速度,ZB(約 1021GB)和 YB(約 1021GB) 的級別也會(huì )很快達到 (IHTT, 2013)。Kaiser Permanente,一個(gè)在加州發(fā)展起來(lái)的醫療健康網(wǎng)絡(luò )系統, 就有9百萬(wàn)的會(huì )員,被認為擁有26.5到44PB的電子健康記錄(IHTT, 2013)。
IT 時(shí)代涌現的還有各種網(wǎng)絡(luò )社交媒體數據,比如曾經(jīng) Google 用來(lái)預測流感的數據。基因數據也是非常龐大的存在,一次全面的基因測序,產(chǎn)生的個(gè)人數據則達到300GB(Leah, 2014)。公開(kāi)發(fā)布的基因 DNA 微陣列達到50萬(wàn)之多,每一陣列包含數萬(wàn)的分子表達值。在生物醫藥方面,功能性磁共振影像的數據量也達到了數萬(wàn)TB級別,每一幅影像包含有5萬(wàn)像素值(Fan, Han, & Liu, 2014)。
此外,各種健身,健康可穿戴設備的出現,使得血壓、心率、體重,血糖,心電圖(EKG)等的監測都變?yōu)楝F實(shí)和可能,信息的獲取和分析的速度已經(jīng)從原來(lái)的按“天”計算,發(fā)展到了按“小時(shí)”,按“秒”計算。比如,一家名為 Blue Spark 的科技公司已經(jīng)生產(chǎn)出能24小時(shí)實(shí)時(shí)監測體溫的新型溫度計貼片 temptraq。
這種數據的擴展速度和覆蓋范圍是前所未有的,數據的格式也五花八門(mén),可能是無(wú)格式文件(flat file),CSV,關(guān)系表,ASCII/ 純文本文件等等。
同時(shí),數據的來(lái)源也紛繁復雜,可能來(lái)自不同的地區,不同的醫療機構,不同的軟件應用。不可否認,一旦理順了多格式,多源頭,呈爆炸性成長(cháng)的大數據的整合和分析,醫療大數據將對提高醫療質(zhì)量,強化患者安全,降低風(fēng)險,降低醫療成本等方面發(fā)揮無(wú)與倫比的巨大作用。