醫療大數據的優(yōu)勢和應用場(chǎng)景
有效的整合和利用數字化的醫療大數據對個(gè)體醫生,康寶中心,大型醫院,和醫療研究機構都有著(zhù)顯著(zhù)的好處。
潛在的利益包括 (W.Raghupathi & Raghupathi, 2014):
1)更多更準確的數據使得疾病能在早期被監測到,從而使治療更容易和有效。
2)通過(guò)對特定個(gè)體或人群的健康管理,快速有效地監測保健詐騙。
3)基于大量的歷史數據,預測和估計特定疾病或人群的某些未來(lái)趨勢,比如:預測特定病人的住院時(shí)間,哪些病人會(huì )選擇非急需性手術(shù), 哪些病人不會(huì )從手術(shù)治療中受益,哪些病人會(huì )更容易出現并發(fā)癥,等等。麥肯錫估計,單單就美國而言,醫療大數據的利用可以為醫療開(kāi)支節省出3千億美元一年。
醫療大數據的利用可以從以下幾方面減少浪費和提高效率 (Manyika, 以及其他人, 2011):
臨床操作: 相對更有效的醫學(xué)研究,發(fā)展出臨床相關(guān)性更強和成本效益更高的方法用來(lái)診斷和治療病人。
研究和發(fā)展:在藥品和醫療器械方面,建立更低磨損度,更精簡(jiǎn),更快速,更有針對性的研發(fā)產(chǎn)品線(xiàn)。統計工具和算法方面,提高臨床試驗設計和患者的招募,使得治療方法可以更好地匹配個(gè)體患者的病癥,從而降低臨床試驗失敗的可能和加快新的治療方法推向市場(chǎng)。分析臨床試驗和病人的病歷,以確定后續的跡象,并在產(chǎn)品進(jìn)入市場(chǎng)前發(fā)現病人對藥物醫療方法的不良反應。
公共衛生:分析疾病模式和追蹤疾病暴發(fā)及傳播方式途徑,提高公共衛生監測和反應速度。更快更準確地研制靶向疫苗,例如:開(kāi)發(fā)每年的流感疫苗。
此外,醫療大數據的分析還有利于以下幾方面的發(fā)展 (W.Raghupathi & Raghupathi, 2014):
循證醫學(xué):結合和分析各種結構化和非結構化數據,電子病歷,財務(wù)和運營(yíng)數據,臨床資料和基因組數據用以尋找與病癥信息相匹配的治療,預測疾病的高危患者或提供更多高效的醫療服務(wù)。
基因組分析:更有效和低成本的執行基因測序,使基因組分析成為正規醫療保健決策的必要信息并納入病人病歷記錄。
提前裁定欺詐分析:快速分析大量的索賠請求,降低欺詐成功率,減少浪費和濫用。
設備/遠程監控:從住院和家庭醫療裝置采集和分析實(shí)時(shí)大容量的快速移動(dòng)數據,用于安全監控和不良反應的預測。
病人的個(gè)人資料分析:全面分析病人個(gè)人信息(例如,分割和預測模型)從中找到能從特定健保措施中獲益的個(gè)人。例如,某些疾病的高危患者(如糖尿病)可以從預防措施中受益。這些人如果擁有足夠的時(shí)間提前有針對性的預防病情,那么大多數的危害可以降到最低程度,甚至可以完全消除。
然而,根據一份針對美國和加拿大333家醫療機構及10家其他機構的調查(IHTT, 2013),2013年,醫療機構累積的數據量比2011年多出了85%, 但77%的醫療健康行政人員對自己機構在數據管理方面的能力評價(jià)為“C”。此外,僅有34%報告他們能從電子健康記錄(EHR)中獲取數據用來(lái)幫助病人,而有 43% 報告他們不能收集到足夠多的數據來(lái)幫助病人。由此可見(jiàn),在北美的醫療系統中,醫療大數據的管理使用準備工作還有一大段路要走。中國也是處在起步階段。
數據分析框架(傳統數據分析框架,大數據分析框架)
醫療大數據有著(zhù)前面第一節提到的所有特征。在醫療大數據帶來(lái)各種優(yōu)勢的同時(shí),大數據隨之帶來(lái)的各種特性使得傳統的數據處理和數據分析方法及軟件捉襟見(jiàn)肘,問(wèn)題多多。在大數據時(shí)代出現之前,受限于數據量的可獲得性和計算能力的有限性,傳統的數據管理和分析采用著(zhù)不同的思路和流程。傳統上,對于問(wèn)題的研究建立在假設的基礎上進(jìn)行驗證,進(jìn)而研究事物的相關(guān)因果性,希望能回答“為什么”。
而在大數據時(shí)代,海量數據的涌現提供了從不同角度更細致更全面觀(guān)察研究數據的可能,從而打開(kāi)了人們的好奇心,探索欲望,人們想知道到數據告訴了我什么,而不僅僅是我的猜想是否被數據驗證了。人們越來(lái)越多地用大數據挖掘各種感興趣的關(guān)聯(lián),非關(guān)聯(lián)等相關(guān)性,然后再進(jìn)一步比較,分析,歸納,研究(“為什么”變成一個(gè)選項而不是唯一終極目標)。大數據與傳統數據思路上的不同導致了分析流程的不同,如圖一所示:
圖一
面對海量的數據和不同的分析思路,大數據的管理和分析與傳統數據分析的差異日益加大。回答特定問(wèn)題的單一預設結構化數據庫明顯不能完全勝任處理大數據的海量及混雜等問(wèn)題。數據的混雜多樣性具體可以從一些調查數據中表現出來(lái)。SAS 的一份調查報告顯示機構內的非結構化數據最多可以占到總數據量的85%,而這些非數字,非結構化的數據卻必須被量化分析和用到?jīng)Q策分析中(Troester, 2012)。
另一份2013年進(jìn)行的 SAS 調查報告顯示在461個(gè)提供完整反饋信息的機構中只有26%的機構表示他們所擁有的大數據是結構化的(Russom, 2013)。 此外,在機構中,分析的數據一般不會(huì )只有一個(gè)單一的來(lái)源。Alteryx 的調查報告顯示在200家被調查的機構中只有6%的機構表示他們的數據是只有一個(gè)來(lái)源,最為普遍的情況是5-10個(gè)來(lái)源, 具體分布如圖二(Alteryx, 2014)。
調查中還顯示 90%的被調查樣本表示有數據整合問(wèn)題,37%表示需要等其他小組提供數據,30%表示不能得到他們想要的數據,一般估計是一個(gè)數據分析師的60%到80%的時(shí)間是花在數據處理準備階段上的(Alteryx, 2014)。