• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    Big Data權威:大數據問(wèn)What比Why更重要

    2014-06-23 08:48:55   作者:   來(lái)源:ithome   評論:0  點(diǎn)擊:


    大數據權威專(zhuān)家麥爾荀伯格:比起問(wèn)「Why」的因果關(guān)系,大數據更看重的是問(wèn)「What」的相關(guān)性
     
    大數據權威專(zhuān)家麥爾荀伯格
     
     
      近日美國大數據權威專(zhuān)家麥爾荀伯格分享了大數據趨勢。他認為,大數據三大特性,是巨量、雜亂和相關(guān)性,而不是一般常見(jiàn)的3V(Volume、Velocity、Variety)定義。如何從這些看似雜亂無(wú)章的巨量資料中,找出最適合的相關(guān)性,并以此來(lái)改變決策,幫助我們更了解世界,正是企業(yè)和政府所面臨的新挑戰。
     
    大數據權威專(zhuān)家麥爾荀伯格
     
      麥爾荀伯格早年曾是名程式設計師,年僅20歲就創(chuàng )立一家防毒軟體公司,推出的防毒軟體一度獲選為澳洲年度暢銷(xiāo)軟體之一。他在哈佛大學(xué)攻讀法律,并取得倫敦經(jīng)濟學(xué)院經(jīng)濟碩士,而後對於大數據領(lǐng)域有著(zhù)深入且廣泛的研究,曾發(fā)表過(guò)上百篇專(zhuān)論和書(shū)藉,現為牛津大學(xué)網(wǎng)際網(wǎng)路研究所教授,專(zhuān)攻網(wǎng)路治理與法規,并著(zhù)有《Big Data》(臺譯:大數據)等著(zhù)作。
     
      麥爾荀伯格認為,經(jīng)過(guò)搜集而來(lái)的大數據,往往具備有三大特性,第一就是擁有非常多的訊息量。
     
      這邊所指的「多」代表的是具有一定規模的完整資料,可透過(guò)蒐集分析發(fā)現具有相關(guān)性的問(wèn)題或現象。他以過(guò)去相機對焦為例,一般只有在對焦范圍內拍出來(lái)的人物輪廓才會(huì )清晰,但范圍以外的人物輪廓往往會(huì )是模糊的,但是改用一臺可先拍照後對焦的光場(chǎng)相機,就能先將所有人物資料完整紀錄下來(lái),之後在決定照片要以誰(shuí)為主角,也不需要花費時(shí)間重拍,還可以獲得更多有關(guān)照片的細節。麥爾荀伯格認為,盡可能蒐集越多的完整資料,也是同樣的道理,蒐集妥了以後再進(jìn)一步?jīng)Q定用途。
     
      麥爾荀伯格提出的大數據第二個(gè)特性是雜亂。相較於過(guò)去受限於測量能力的限制,能取得的資料往往不多,因此會(huì )注重資料的精確性。但是,當面對的是雜亂且復雜的大數據時(shí),就不能再以過(guò)去傳統少量資料的方式去分析,而是要有新的作法。他說(shuō),大數據要求的并不是一點(diǎn)錯都無(wú)法容忍接受的精確資料,更多時(shí)候反而容許有測量誤差的資料,只要透過(guò)分析可以得出有用的資料,就不用為了那一兩棵樹(shù)而放棄一整座森林。
     
      比起問(wèn)why,大數據更看重的是問(wèn)What相關(guān)性至於大數據第三個(gè)特性則是相關(guān)性,麥爾荀伯格解釋?zhuān)绕饐?wèn)「Why」的因果關(guān)系,大數據更看重的是問(wèn)「What」的』相關(guān)性。「重要的是先了解,資料要告訴我們『什麼』而不是『為什麼」。他以美國知名零售商沃爾瑪當例子,當他們在進(jìn)行大數據分析時(shí)發(fā)現,每當颶風(fēng)即將抵達前,當地居民除了上超市去買(mǎi)手電筒和電池之外,還會(huì )買(mǎi)了一堆被稱(chēng)為是Pop-Tarts的草莓甜點(diǎn),這樣的發(fā)現也替沃爾瑪帶來(lái)龐大商機,至於顧客為什麼會(huì )買(mǎi)這些甜點(diǎn)就不是那麼重要了。同樣的道理,當亞馬遜和Netflix 在推薦顧客產(chǎn)品時(shí),同樣也不知道為什麼要推薦這些書(shū)或DVD影片,只要知道顧客會(huì )買(mǎi)單就好。
     
      另一個(gè)麥爾荀伯格舉的例子是語(yǔ)言翻譯。1950年代的美國電腦科學(xué)家,曾試圖透過(guò)文法規則讓機器大量翻譯俄語(yǔ)資料,花了12年時(shí)間投入近數十億美元,最終還是宣告失敗。當時(shí),IBM也在個(gè)人電腦加入更多語(yǔ)句和文法規則,并以此成功翻譯了60個(gè)俄文短句,但因無(wú)法進(jìn)行大量翻譯也告失敗,就算是在1990年時(shí),IBM試圖透過(guò)新開(kāi)發(fā)的統計機器來(lái)翻譯10年份的加拿大國會(huì )文件資料(含英法雙語(yǔ)),盡管的確改善了機器翻譯的品質(zhì),但最後因投入大筆資金卻無(wú)法得到相應成果,只好退出放棄。
     
      反觀(guān)當時(shí)還是名不見(jiàn)經(jīng)傳的小公司Google,成立僅僅不到10年時(shí)間就完成了這項不可能任務(wù),推出了翻譯服務(wù),而其采用的方式只不過(guò)就蒐集了幾千億筆的網(wǎng)路資料來(lái)分析,其中有包括歐盟語(yǔ)言、網(wǎng)站語(yǔ)言、書(shū)籍和說(shuō)明手冊等五花八門(mén)的資料,盡管這些資料品質(zhì)參差不齊,但透過(guò)匯整分析卻能翻譯出更為精確的語(yǔ)句。
     
      麥爾荀伯格舉的最後一個(gè)例子則是早產(chǎn)兒診斷,Carolyn McGregor博士率領(lǐng)了安大略理工學(xué)院與IBM的研究人員,共同開(kāi)發(fā)一套身體健康追蹤系統,可以即時(shí)追縱早產(chǎn)兒的健康資料,包括像是心跳、呼吸、體溫、血壓等身體癥狀,并且每秒鐘會(huì )回傳1,260筆資料給醫生。醫生透過(guò)這套系統可經(jīng)觀(guān)察細微媽媽體內嬰兒的身體變化,提早24小時(shí)前預測出是否為早產(chǎn)兒的可能性,以挽救更多的生命。後來(lái)Carolyn McGregor用大數據技術(shù)來(lái)分析這些資料後,還發(fā)現早產(chǎn)兒在嚴重感染前,反而生命跡象會(huì )有一段時(shí)間維持穩定,顛覆了過(guò)去一般認為早產(chǎn)而身體先惡化再感染的理論。倘若Carolyn McGregor只專(zhuān)注於研究身體惡化與感染間的因果關(guān)系,就無(wú)法得到這個(gè)發(fā)現。
     
      從巨量機器假設找出最佳相關(guān)性
     
      對統計學(xué)家來(lái)說(shuō),常見(jiàn)的研究流程是先有理論基礎,接著(zhù)是提出假設,最後再透過(guò)數據來(lái)驗證,但在大數據上,麥爾荀伯格認為,原有研究流程變得不一樣了。以Google的作法來(lái)說(shuō),同樣都有一套理論基礎,但Google卻是透過(guò)程式自動(dòng)建立了大量的機器假設(Machine Hypothesis),將所有可能的假設通通都放進(jìn)來(lái),再利用云端運算技術(shù)一次處理高達4.5億個(gè)機械假設,從這些巨量的機器假設中找出最合理的相關(guān)性。
     
      大數據核心價(jià)值:可重覆使用、重組資料,發(fā)現新價(jià)值
     
      麥爾荀伯格更指出,大數據的核心價(jià)值,在於可以重覆地使用資料,而且是不斷地重組可能的使用方式。他說(shuō),過(guò)去人們會(huì )因為特定目的而蒐集資料,但在大數據時(shí)代,很多時(shí)候并不知道這些資料是否還有其他用途,像是「先拍照後對焦」的光場(chǎng)相機,往往是透過(guò)對巨量資料交叉分析後,才對資料運用有了新發(fā)現。就像裝在車(chē)上的感應器,除了可用來(lái)找出目前那一個(gè)地段最容易塞車(chē),日本東京產(chǎn)業(yè)技術(shù)大學(xué)也曾在駕駛座位裝入360顆感應器,來(lái)蒐集駕駛坐在駕駛座上的動(dòng)作,只有符合登錄臀部坐姿的駕駛才能發(fā)動(dòng)車(chē)子,以此達到防盜功效。
     
      又好比如說(shuō),Google曾經(jīng)於2009年成功利用搜尋關(guān)鍵字來(lái)預測流感趨勢,但後來(lái)預測卻失準,麥爾荀伯格表示,最大原因就是沒(méi)有考慮到現實(shí)及人類(lèi)行為環(huán)節的改變。而剛推出的Google Glass眼鏡,「其實(shí)Google真正的目的是要了解人們到底在看什麼?關(guān)心什麼?透過(guò)運用這些蒐集而來(lái)資料進(jìn)一步去分析預測出消費者的行為。」他說(shuō)。
     
      荷蘭手機公司藉由販售天氣數據,開(kāi)創(chuàng )新的事業(yè)大數據不只可幫助企業(yè)內部決策,還可協(xié)助開(kāi)創(chuàng )新事業(yè)。麥爾荀伯格以國外幾個(gè)大數據應用成果作為例子,像在荷蘭有一家手機公司面臨了低價(jià)競爭而無(wú)法獲利時(shí),他們發(fā)現了自家所建造的基地臺訊號,無(wú)形中會(huì )因周遭環(huán)境氣候而改變,這個(gè)發(fā)現讓他們反而可以販售天氣數據,轉換跑道來(lái)開(kāi)創(chuàng )新的事業(yè)。勞斯萊斯不只是汽車(chē)公司也是全球第二大的飛機引擎制造商,透過(guò)在大型客機內的噴射引擎,載入飛行管理系統來(lái)監控大量的引擎運轉資料,加以分析後能預測出引擎的壽命,勞斯萊斯并以此來(lái)提供預測性的維修服務(wù)。
     
      美國零售商Target則是另一個(gè)典型的大數據應用,Target搜集了大量女性顧客的購物行為,運用大數據分析找出各種相關(guān)性,像是他們分析後發(fā)現,女性在懷孕三個(gè)月的時(shí)候,會(huì )開(kāi)始購買(mǎi)某一類(lèi)產(chǎn)品或對特定品牌產(chǎn)生忠誠度,像是無(wú)香味的乳液或各類(lèi)營(yíng)養補充品。反推回來(lái),當女性開(kāi)始出現這個(gè)行為時(shí),也可以用來(lái)預測出女性是否已有懷孕跡象,甚至還能因此準確預測出小孩出生的日期。
     
      盡管透過(guò)分析演算,大數據可以用來(lái)改變決策的方式,創(chuàng )造出新的商業(yè)或經(jīng)濟價(jià)值,甚至可作為預測人類(lèi)行為的強大工具,但麥爾荀伯格也提醒,使用這些資料必須很小心,切勿忘記人有自由意志,一旦過(guò)度依賴(lài)這些預測資料,一方面可能發(fā)生像是在《一九八四》小說(shuō)中無(wú)所不在的老大哥(Big Brother)監控,造成對個(gè)人隱私的侵犯。也可能作出不公平的預測,發(fā)生了如電影關(guān)鍵報告中還未犯罪就遭到逮補的情節。
     
      他說(shuō),如何善加利用大數據和使用工具,去幫助人們更了解這個(gè)世界,是政府和企業(yè)所面臨的新挑戰。

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 乡宁县| 凌海市| 兰西县| 龙海市| 唐海县| 闻喜县| 沽源县| 固始县| 定安县| 武隆县| 阆中市| 南川市| 长垣县| 信阳市| 呼伦贝尔市| 伊春市| 和顺县| 赤城县| 田东县| 蒙阴县| 兴国县| 南开区| 珠海市| 河北省| 德庆县| 西吉县| 当涂县| 六枝特区| 安福县| 凤凰县| 喀什市| 托克逊县| 晋中市| 清水河县| 荆门市| 仪陇县| 双柏县| 通渭县| 岢岚县| 新民市| 阿克苏市| http://444 http://444 http://444 http://444 http://444 http://444