大數據特性對統計應用上的際遇和沖擊
大數據的獨特性對傳統的統計方法發(fā)出了挑戰,刺激著(zhù)新的,適用于大數據分析的統計方法的發(fā)展。本文提到的一些際遇和問(wèn)題,一部分是作者自己的觀(guān)點(diǎn),一部分摘自其他文章( (Fan, Han, & Liu, 2014) (Wang & Wang, 2014)。
相較于統計文章的專(zhuān)業(yè)寫(xiě)作手法,作者試圖用更淺顯易懂的說(shuō)法來(lái)介紹這些問(wèn)題,讓一般的讀者對此也能有一定的了解并對此產(chǎn)生興趣。傳統數據一般來(lái)說(shuō)是樣本量遠遠大于感興趣的因素,比如一數據有200條記錄關(guān)于個(gè)人是否有心血管病,可能相關(guān)因素為性別,年齡,血壓。這兒只有4個(gè)因素,但樣本量為 200(200>>4)。
而大數據則擁有海量的樣本及相當多的因素。還是用心血管的例子,現在比如我們有了幾萬(wàn)條記錄的樣本量,但同時(shí)也擁有了上百個(gè)的因素,各種以前沒(méi)法收集的因素都收集了,像運動(dòng)與否,運動(dòng)量如何,運動(dòng)類(lèi)型,飲食習慣,飲食內容,喝酒與否,喝什么酒,喝酒習慣次數等等。這使統計中對數據的研究應用得到了新的際遇同時(shí)也面臨了新的挑戰。
數據異質(zhì)性(heterogeneity)
數據異質(zhì)性,可以簡(jiǎn)單理解成一個(gè)大樣本數據里有很多小樣本,每個(gè)小樣本有著(zhù)不同的數據特征,比如小樣本的平均值有高有低,離散程度有密有疏,就好象海洋中有著(zhù)不同溫度,不同密度的各種洋流一樣。我們不能簡(jiǎn)單的只在大樣本的層面進(jìn)行統計分析,這樣得出的結果如果被用于對小樣本或樣本中的個(gè)體的估計或預測時(shí)就會(huì )出現偏差,因為每個(gè)小樣本可能有著(zhù)一些它自己獨特的特征。
在數據樣本小的時(shí)候,里面的小樣本相應的就更小。 這種情況下小樣本里的數據記錄可能只有一,兩個(gè),它們只能被當作異常值處理,無(wú)法分析。而在大數據里,這種具有獨特特征的數據記錄收集出現多了,就擁有了被統計分析的條件,從而使我們更好地探究特定因素的關(guān)聯(lián)性,理解這些數據異質(zhì)性。比如有些只在特定人群里發(fā)生的極其罕見(jiàn)的疾病,大數據使我們得以研究發(fā)病原因,發(fā)病風(fēng)險因素;理解為什么有些治療方法對某些人群有利,而同樣的方法對另一人群卻有害,等等。
同樣,由于海量樣本和巨多的因素存在于大數據里,信息的復雜度也會(huì )增加不少,受復雜度的影響,可能導致統計上的過(guò)度擬合(overfitting)。過(guò)度擬合就是指我們建立了一個(gè)復雜的統計模型,它能很好的描述現有數據的情況,但當我們想把這模型應用到預測新數據時(shí),它的表現卻相當差。比如圖九所示:
圖九
圖九左邊上的曲線(xiàn)是我們針對藍點(diǎn) (當作現有數據) 做出的模型,基本上能很好的描述藍點(diǎn)的分布及曲線(xiàn)和藍點(diǎn)的吻合度較高。用這曲線(xiàn)去描述黃點(diǎn)(當作新數據),吻合度也還不錯。圖九右邊的曲線(xiàn)則完全通過(guò)了每一藍點(diǎn),吻合度極高,完全描述了藍點(diǎn)的復雜特性。然而,它在描述黃點(diǎn)時(shí),吻合度就差多了,偏差就比左邊的曲線(xiàn)大不少。簡(jiǎn)單來(lái)說(shuō),數據越復雜,需要考慮的因素越多,建立普遍有效的統計模型的難度就越大。
偏差識別(Bias accumulation)
分析數據時(shí),我們需要估計或測試很多參數用以建立可靠的統計數據模型。期間不可避免會(huì )產(chǎn)生偏差,這些估計中產(chǎn)生的偏差積累,很大程度上受著(zhù)數據量大小及參數多寡的影響。 在一般小數據時(shí),這問(wèn)題可以并不顯著(zhù)。但在大數據的情況下,這問(wèn)題就變的相當值得注意。 我們用一簡(jiǎn)化的例子來(lái)說(shuō)明這個(gè)問(wèn)題。
假設我們有兩組數據A和B,A組數據收集估算時(shí)沒(méi)有偏差,所有樣本數值都為1000。B組數據,實(shí)際所有樣本數值也是1000,但存在偏差,而且偏差隨收集樣本量的增加呈指數式成長(cháng)(為了說(shuō)明情況,偏差指數式成長(cháng)是一個(gè)很極端的例子)。每增加一個(gè)記錄,偏差增長(cháng)公式為:
這樣B組第一個(gè)記錄包含偏差為1.001=1.0011. B組第一個(gè)值為1000×1.001=1001. B組第二個(gè)記錄包含偏差為 1.002001=1.0012. B 組第一個(gè)值為 1000×1.002001=1002.001. B 組第十個(gè)值為 1000×1.01004512=1010.045. 這樣如果是小數據 n=10, A組數據其實(shí)和B組數據比起來(lái)相差是不大的。B 組內的每一個(gè)數字增加的偏差不足以引起注意,如果2%以?xún)鹊钠疃伎梢越邮艿脑?huà)。
然而當我們收集了1萬(wàn)個(gè)數據記錄后,情況就發(fā)生了很大的變化。我們來(lái)看最后10個(gè)數據相差情況已經(jīng)相當相當大了。