• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 新聞 > 國內 >

    醫療大數據專(zhuān)家:淺談醫學(xué)大數據

    2015-03-26 10:06:29   作者:   來(lái)源:36氪   評論:0  點(diǎn)擊:


      A組數據和B組數據,在擁有海量的數據樣本的情況下,相差已是十萬(wàn)八千里了。圖十顯示了偏差隨樣本量增加的變化情況。在樣本數量為4236左右,偏差的增加還不明顯。一過(guò)4236,偏差則出現了驚人的增長(cháng)。

      圖十

      所以依此為判斷的話(huà),我們可以說(shuō)在數據樣本量4000左右,A組和B組比較,差別可能不大。但數據樣本量大于4000以后,A組和B組比較,可能就會(huì )相當不一樣了。這個(gè)例子充分說(shuō)明了大數據相比較小數據而言對數據偏差更容易進(jìn)行識別,從而發(fā)現數據收集過(guò)程中的問(wèn)題并加以改善。

      虛假相關(guān)(spurious correlation)

      虛假相關(guān),我們用一個(gè)例子來(lái)加以解釋說(shuō)明。這兒還是以前面提到過(guò)的心血管數據為例。現在只收集了200個(gè)記錄,但每條記錄都有100個(gè)各方各面因素的信息。這樣,我們想看是否這100個(gè)因素和“是否有心血管病”相關(guān)。如此,我們進(jìn)行兩兩檢驗測試: 是否有心血管病和因素一進(jìn)行檢驗,是否有心血管病和因素二進(jìn)行檢驗……是否有心血管病和因素一百進(jìn)行檢驗。

      每一個(gè)檢驗測試結果只會(huì )出現兩種情況: 統計學(xué)上有意義和統計學(xué)上無(wú)意義。

      統計學(xué)上有意義,簡(jiǎn)單來(lái)說(shuō)就是認為心血管病和該因素有關(guān)。統計學(xué)上無(wú)意義就是認為心血管病和該因素無(wú)關(guān)。 在此過(guò)程中,你可能發(fā)現,大約會(huì )有5次在統計學(xué)上被認為與心血管病相關(guān)的因素,實(shí)際上從常識和現實(shí)來(lái)判斷是沒(méi)有任何關(guān)聯(lián)的,也就是說(shuō)統計學(xué)上有意義是錯誤的。這就是虛假相關(guān)。

      為了讓我們能知其然也知其所以然,這兒要解釋一下“統計學(xué)上有意義”究竟是怎么界定的 。一般做檢驗測試時(shí),我們會(huì )界定一個(gè)值,叫做第一類(lèi)統計錯誤率。這個(gè)錯誤率通常被設定為5%,也就是說(shuō)每100次檢驗測試,我們允許有5次在統計學(xué)上實(shí)際無(wú)意義的被錯誤判斷為統計學(xué)上有意義(如果不允許統計錯誤率的存在,那就是100%的正確率,也就是說(shuō)沒(méi)有不確定性的存在。如果有這樣的數據,就不需要做任何統計上的假設檢驗了)。

      也就是說(shuō),如果實(shí)際不存在相關(guān)性,我們允許100次假設檢驗中出現5次錯誤相關(guān)。這就是以上例子中出現虛假相關(guān)的原因。 在面對龐大的海量數據和超多維度的因素時(shí),當同時(shí)對一個(gè)數據進(jìn)行許多檢驗測試時(shí),不可避免會(huì )出現虛假相關(guān)。如何處理這個(gè)問(wèn)題,統計學(xué)上還在做著(zhù)進(jìn)一步的研究。

      無(wú)意義顯著(zhù)性(meaningless significance)

      還有一種情況我們稱(chēng)為無(wú)意義的顯著(zhù)性 (Lin, Lucas, & Shmueli, 2013)。當我們做兩組數據的分析比較時(shí),如果A組,B組各只有1000個(gè)數據記錄,我們測試兩組數據的平均值是否一樣,結果告訴我們統計學(xué)上無(wú)意義。也就是說(shuō),這兩組數據的平均值無(wú)統計學(xué)上的差異。但當數據記錄達到上萬(wàn)上百萬(wàn)時(shí),測試的結果告訴我們統計學(xué)上是有意義的了。

      這又是怎么回事?我們回到源頭上去看,為什么要做兩組數據的統計分析比較?不可以就算出兩組的平均值,比一比他們是否相同嗎?當然不可以,因為我們真正希望分析比較的結果是能夠反映100%總體數量數據的客觀(guān)現象。單純孤立的比較兩組各1000個(gè)記錄的平均值,就是比大小,比出來(lái)的結論不能推廣到100%總體數量數據的客觀(guān)現象上。

      但這兩組數據等同于100%總體數量數據嗎? 當然不是,就算是海量的大數據也并不能100%等同于總體數量數據。這樣我們分析總結出的這兩組數據的一些統計指標就會(huì )和總體數量數據的統計指標有一定的偏差。這個(gè)偏差一般有一個(gè)下限和上限,我們稱(chēng)為置信區間。真實(shí)的總體數量數據的統計指標就落在樣本數據統計指標的左邊或右邊的一定范圍內(置信區間)。

      好了,我們實(shí)際要看的是A組總體數量數據和B組總體數量數據在平均值上是否一樣,換種說(shuō)法就是A組總體數量數據平均值減B組總體數量數據平均值是否等于零。現在我們只有A組樣本數量數據平均值和B組樣本數量數據平均值,表達符號就是和。要看的就是A組樣本數量數據平均值減B組樣本數量數據平均值的差值是否等于0: 但我們已經(jīng)知道由于樣本均分差的存在,樣本平均值相減的差值不一定是零,而且這個(gè)差值有一定的置信區間。

      那么我們實(shí)際上更精確的說(shuō)是看0是否落在樣本差值的置信區間內(置信區間的上限和下限和上面提到的第一統計錯誤率是相一致的,有一個(gè)5%的概念在里面,這兒就不詳細介紹了。反正是否落在置信區間里否也可以用來(lái)判斷統計學(xué)上是有意義還是沒(méi)有意義)。落在里面我們就說(shuō)是統計學(xué)上是沒(méi)有意義的也就是兩組數據的平均值是一樣。不落在里面我們就說(shuō)是統計學(xué)上是有意義的也就是兩組數據的平均值不一樣。如圖十一所示:

      圖十一

      那為什么在樣本數據量為1000和上萬(wàn)上百萬(wàn)的情況下結果會(huì )不一樣。這兒我們進(jìn)一步要講的就是樣本數量和置信區間之間的關(guān)系了。隨著(zhù)樣本數量的增加,樣本差值會(huì )和真實(shí)的總體數據差值接近(不一定就是0哦),同時(shí)不確定性會(huì )減小,置信區間會(huì )縮短,其實(shí)就是估計的差值越來(lái)越精準了。這種情況下,就算樣本差值是非常接近0的一個(gè)數(就是說(shuō)我們都覺(jué)得兩組數據的平均值是一樣的了),但是由于置信區間的縮小,0仍舊會(huì )落在置信區間的外面(如圖十一,下部分2所示)。

      這樣一來(lái),結果就會(huì )是統計學(xué)上是有意義的:兩組數據的平均值是不一樣的。現有的統計方法運用在大數據時(shí)會(huì )帶來(lái)這樣的一種錯誤信息。這是因為現有的傳統統計方法是針對小數據的,在被提出的時(shí)候,還沒(méi)有面對過(guò)或想到數據量可以如此龐大。如何解決如何改進(jìn)由于這樣的數據特性帶來(lái)的問(wèn)題,我們還在研究的路上。

      羊群效應(herding effect)

      大數據時(shí)代,我們的社會(huì )已經(jīng)在越來(lái)越多的把個(gè)人的觀(guān)點(diǎn)數字化,匯總化,并依賴(lài)于此做出決策(比如根據收集到的評分來(lái)進(jìn)行產(chǎn)品或服務(wù)的推薦)。這一現象在醫療界也漸漸的變的普遍起來(lái)。好多輔助醫療應用軟件在移動(dòng)平臺上都會(huì )有使用者的評分,人們會(huì )根據評分來(lái)選擇是否使用一下。某些醫療網(wǎng)絡(luò )平臺推出的服務(wù),比如網(wǎng)絡(luò )問(wèn)診,使用者也可以對提供服務(wù)的醫療人員進(jìn)行滿(mǎn)意度的評分,進(jìn)而影響他人決定是否選擇此醫療人員來(lái)進(jìn)行問(wèn)診咨詢(xún)。

      利用這種“眾人的智慧”的一個(gè)關(guān)鍵要求是個(gè)人意見(jiàn)的獨立性。然而,在現實(shí)的世界中,匯總收集的集體意見(jiàn)卻很少是由互不相干的獨立的個(gè)體意見(jiàn)所組成的。最近的實(shí)驗研究證明先前已經(jīng)存在的收集到的意見(jiàn)會(huì )歪曲隨后個(gè)人的決策還有對質(zhì)量及價(jià)值的認知。凸顯出了一個(gè)根本的差異既: 我們從集體意見(jiàn)感知到的價(jià)值和產(chǎn)品本身固有的價(jià)值之間的差異。

      產(chǎn)生這種差異的原因在于“羊群效應” 。羊群效應簡(jiǎn)單的描述就是個(gè)體的從眾跟風(fēng)心理和行為。羊群是一種很散亂的組織,平時(shí)在一起也是盲目地左沖右撞,但一旦有一只頭羊動(dòng)起來(lái),其他的羊也會(huì )不假思索地一哄而上,全然不顧前 面可能有狼或者不遠處有更好的草。因此,“羊群效應”就是比喻一種從眾效應,很容易導致盲從,而盲從往往會(huì )陷入認知偏差,決策偏差。

      IBM Watson 研究中心 (Wang & Wang, 2014) 使用大規模縱向的客戶(hù)評分數據集(亞馬遜的)并建立統計模型演示了評分和意見(jiàn)的產(chǎn)生不是獨立,均勻的過(guò)程,而是創(chuàng )建了一個(gè)環(huán)境進(jìn)而影響以后評分或意見(jiàn)的產(chǎn)生。體現在這種社會(huì )化的客戶(hù)評分系統中的“羊群效應”具體表現為:高評分傾向于產(chǎn)生新的高評分同時(shí)抑制低評分的產(chǎn)生。

      接下來(lái)的問(wèn)題就是:什么是真實(shí)的符合產(chǎn)品真正質(zhì)量的評分如果我們能把“羊群效應”給剔除出去的話(huà)? 應用 IBM Watson 研究中心建立的統計模型能夠部分回答這個(gè)問(wèn)題。他們對亞馬遜的四類(lèi)產(chǎn)品數據(書(shū)籍,電子產(chǎn)品,電影電視,和音樂(lè ))進(jìn)行了內在評分(剔出“羊群效應”)和外在(沒(méi)有剔出“羊群效應”)測試。所有四個(gè)類(lèi)別,50%以上的產(chǎn)品評分的差異大于0.5。這個(gè)差異,說(shuō)明我們從集體評分中得來(lái)的感知和產(chǎn)品的真實(shí)價(jià)值之間存在著(zhù)顯著(zhù)的差異。

      再深一步,鑒于產(chǎn)品現在的評分,如果我們施加一定的人為操縱,“羊群效應”會(huì )如何影響今后的評分?這樣的預測分析對于很多領(lǐng)域都是相當有價(jià)值的,包括市場(chǎng)盈利估計,預算廣告和欺詐操縱檢測等。例如,在決定是否對以產(chǎn)品進(jìn)行促銷(xiāo)活動(dòng)之前,市場(chǎng)分析師可能希望估計由于推廣而出現的短期高評分對產(chǎn)品的長(cháng)期影響。

      研究中心通過(guò)對兩類(lèi)產(chǎn)品(電影電視,和音樂(lè ))插入50個(gè)人為5星級的評分,預測到雖然這兩種產(chǎn)品在受歡迎程度上遇到類(lèi)似的短期高評分,從長(cháng)遠來(lái)看,推廣對于電影及電視類(lèi)產(chǎn)品有著(zhù)更持久的影響(高評分消減的更慢)。這對于市場(chǎng)分析的決策提供了很有價(jià)值的情報。

      此類(lèi)大數據中的“羊群效應”可以通過(guò)適當的統計方法加以消除,利用,以產(chǎn)生更有價(jià)值的信息用于決策分析中。

      以上的各個(gè)例子充分說(shuō)明了在大數據時(shí)代,雖然數據庫等操作建立需要專(zhuān)業(yè)計算機人才的貢獻,統計專(zhuān)業(yè)人員的參與也是必不可少的。數據的管理分析并不僅僅是提取,檢索,簡(jiǎn)單匯總,總結。數據本身的復雜性,使得分析的過(guò)程中充滿(mǎn)了種種陷阱,誤區。沒(méi)有一定統計方面的理論知識結構,就會(huì )出現分析上的偏差,或者低效率的數據利用。在計算機算法的基礎上去學(xué)習認識數據統計的性質(zhì),把算法和統計分析結合起來(lái)是未來(lái)大數據分析的一個(gè)主要方向。

      結論和展望

      本文浮光掠影地講述了什么是大數據,有選擇性地描述了大數據的一些特性,醫療大數據及其在北美醫療系統中的現況,揭示了大數據分析將會(huì )對醫療衛生保健領(lǐng)域帶來(lái)巨大的影響和沖擊。 大數據通過(guò)對臨床及其他數據存儲庫進(jìn)行數據管理和分析獲得前所未有的洞察力并依此做出更明智的決策。

      在不久的將來(lái),大數據分析的應用將會(huì )快速,廣泛的涌現在整個(gè)醫療保健機構和醫療保健行業(yè)。本文描述的數據管理框架,數據統計分析揭示了大數據的有效應用是一個(gè)系統性的工程,需要一系列專(zhuān)業(yè)技能來(lái)保證大數據分析的成功,包括:處理,整合,分析復雜的數據并能幫助客戶(hù)充分了解數據分析的結果。要做到這些 需要多方面的專(zhuān)業(yè)技能及特質(zhì),包括:

    • 計算機科學(xué)/數據開(kāi)發(fā)的專(zhuān)業(yè)技能:扎實(shí)的計算機科學(xué)基礎及運用能力,明了大數據的基礎框架設施。
    • 分析和建模能力:在了解數據的基礎上迅速分析并建立有效的統計模型。這不僅需要扎實(shí)的統計學(xué),還需要有敏銳的思考和洞察力。
    • 好奇心和創(chuàng )意的思考能力:這需要對數據有著(zhù)一種渴望激情,善于全面敏銳的思考并挖掘問(wèn)題。一些機構尋找人才就是看誰(shuí)能在討論數據時(shí)能夠靈光一現。
    • 突出的交流能力:整合數據和結果的分析報告,能清晰明了的用非專(zhuān)業(yè)語(yǔ)言幫助客戶(hù)或公眾正確理解數據分析結果并做出決定。

      當然,我們很難找到一個(gè)人才具有以上所有技能,但通過(guò)團隊分工合作建立起高效的大數據小組是目前可行的方向。從而, 在這個(gè)大數據分析變得更加主流的時(shí)代,把握時(shí)機,脫穎而出或百尺竿頭,更進(jìn)一步。

      關(guān)于作者

      本文作者陳遵秋,美國俄勒岡州,健康科技大學(xué),公共衛生預防系,美國統計協(xié)會(huì )認證統計分析師;陳漪伊,美國俄勒岡州,健康科技大學(xué),公共衛生預防系,生物統計助理教授(交流微信號:2823095726)。

      陳遵秋和陳漪伊夫婦是美籍華人,現在美國定居。其二人是目前研究醫療大數據及生物樣本大數據真正的專(zhuān)家。現將兩位的文章進(jìn)行公開(kāi)發(fā)表,與大家一起探討。

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 天长市| 连城县| 西平县| 安康市| 丽水市| 安泽县| 抚顺市| 焉耆| 浦城县| 峨山| 社旗县| 阿拉善盟| 静宁县| 长子县| 象山县| 哈尔滨市| 金沙县| 巴彦县| 泸溪县| 华容县| 遂宁市| 大渡口区| 柞水县| 泸水县| 张家界市| 津市市| 常熟市| 江门市| 连平县| 新宁县| 南雄市| 浪卡子县| 乌拉特前旗| 英德市| 海伦市| 叙永县| 泗阳县| 五华县| 东兴市| 普兰店市| 济宁市| http://444 http://444 http://444 http://444 http://444 http://444