• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>

    大數據時(shí)代的裸奔

    2015-01-20 11:09:11   作者:科學(xué)松鼠會(huì )會(huì )員、通信專(zhuān)業(yè)教師新浪微博社區委員會(huì )專(zhuān)家成員 奧卡姆剃刀   來(lái)源:飛象論壇   評論:0  點(diǎn)擊:


      1、相關(guān)關(guān)系比因果關(guān)系更重要

      老王開(kāi)了個(gè)包子鋪,有時(shí)做少了不夠賣(mài),有時(shí)做多了沒(méi)賣(mài)完,兩頭都是損失。老王琢磨著(zhù)買(mǎi)包子的都是街坊,他們買(mǎi)包子是有規律的,例如老張只在周六買(mǎi),因為閨女周末會(huì )來(lái)看他,而且閨女就愛(ài)吃包子。于是老王每賣(mài)一次就記次賬,誰(shuí)在哪天買(mǎi)了幾籠包子,并試圖找出每個(gè)街坊的買(mǎi)包子規律。

      數據雖然越記越多,但老王啥規律也沒(méi)找出來(lái),即使是老張也都沒(méi)準,好幾個(gè)周六都沒(méi)來(lái)買(mǎi),因為他閨女有事沒(méi)來(lái)。有個(gè)人給老王支招,你甭記顧客,就記每天賣(mài)了多少籠就行,這個(gè)法子明顯簡(jiǎn)單有效,很容易就看出了周末比平時(shí)會(huì )多賣(mài)兩籠的規律。

      這個(gè)例子雖然簡(jiǎn)單,卻道出了大數據的一個(gè)重要特點(diǎn)【相關(guān)關(guān)系比因果關(guān)系更重要】,周末與買(mǎi)包子人多就是相關(guān)關(guān)系,但為什么多呢?是因為老張閨女這樣的周六來(lái)吃包子的人多?還是周末大家都不愿意做飯?對這些可能性不必探究,因為即使探究往往也搞不清楚,只要獲得了周末買(mǎi)包子的人多,能正確地指導老王在周末時(shí)多包上兩籠,這就行了。

      要相關(guān)不要因果,這是大數據思維的重要變革,以前數據處理的目標更多是追求對因果性的尋找,或是對猜測的因果性的驗證,人們總是習慣性地找出個(gè)原因,然后心里才能踏實(shí),而這個(gè)原因是否是真實(shí)的,卻往往是無(wú)法核實(shí)的,而虛假原因對面向未來(lái)的決策來(lái)說(shuō)是有害無(wú)益的。承認很多事情是沒(méi)有原因的,這是人類(lèi)思維方式的一個(gè)重大進(jìn)步。

      2、要全體不要抽樣

      傳統的調查方式都是抽樣的,抽取有限的樣本進(jìn)行統計,從而得出整體的趨勢來(lái),之所以選擇抽樣而不是統計全部數據,只有一個(gè)原因,那就是全部數據的數量太多了,根本沒(méi)法操作。

      抽樣的核心原則就是隨機性,不隨機就不能反映整體趨勢性。例如搞一個(gè)保暖內衣的調查,找了一群精壯的武警戰士試穿,戰士們穿上了普遍反映不冷,但這并不能說(shuō)明內衣的保暖效果有多好。

      抽樣隨機性的道理誰(shuí)都知道,但要做到隨機性其實(shí)是很難的。例如電視收視率調查,要從不同階層隨機找被調查人,但高學(xué)歷高收入的大忙人們普遍拒絕被調查,他們根本就不會(huì )為幾條毛巾贈品而耽誤時(shí)間,愿意接受調查的多是整天閑得無(wú)聊的低收入者,電視收視率的調查結果就可想而知。

      互聯(lián)網(wǎng)為大數據的采集帶來(lái)的新手段,云計算為處理大數據帶來(lái)了新方法。還以電視收視率調查為例,互聯(lián)網(wǎng)電視普及后,每一部電視正在收看什么節目的信息會(huì )毫無(wú)遺漏地發(fā)送到調查中心。這就是大數據的第二個(gè)特點(diǎn)【要全體不要抽樣】,對全部數據進(jìn)行統計分析,其結果當然會(huì )更加準確。

      3、要效率不要精確

      俗話(huà)說(shuō)的好,蘿卜快了不洗泥,既然我們要的是全體數據,自然會(huì )夾雜進(jìn)來(lái)一些錯誤的數據,這是難以避免的。我們傳統的數據分析的思路是“寧缺勿爛”,因為傳統小數據分析的數據量本身并不大,任何一個(gè)錯誤數據都有可能對結果產(chǎn)生相對較大的負面影響,對錯誤數據必須花大精力去清除,這是小數據時(shí)代必須堅持的原則。

      大數據時(shí)代的原則就變了,變成了【要效率不要精確】,并不是說(shuō)精確不好,而是因為在大數據時(shí)代是做不到的,如果繼續把排除錯誤數據作為重要工作,那大數據分析就進(jìn)行不下去了。更重要的是,大數據分析的目標在于預測,而不在于追溯以前發(fā)生過(guò)的事件的真相。

      4、大數據時(shí)代的裸奔

      有次我給學(xué)生暢想未來(lái),你走在大街上,基站的智能天線(xiàn)以一道極窄的波束指向你的手機,從而獲得你的方位角,通過(guò)開(kāi)機瞬時(shí)的上百次功率調整和探詢(xún),換算后就能獲得你與基站的距離,兩個(gè)信息結合就精準地確定了你的位置。根據你的搜索記錄,互聯(lián)網(wǎng)早已知道了你的愛(ài)好,然后手機“滴”地一聲通知你,你前方10米處右側有您最喜愛(ài)吃的咸豆腐腦店,正在八折酬賓中,“滴”地又來(lái)了一聲,老板已得知您是咸豆腐腦的忠實(shí)擁護者,特別給您打五折,來(lái)嘗一碗唄。

      在我描繪完未來(lái)信息社會(huì )的全新生活方式后,有個(gè)學(xué)生問(wèn)我:我走在大街上,手機“滴”地一聲,通知我前面有個(gè)同志聚會(huì ),系統通過(guò)我以前的搜索和看過(guò)的片子早已確定了我的性向,并將我的信息經(jīng)過(guò)精確配對發(fā)送給了好多基友,但我并不想出柜,這可咋整啊?

      這個(gè)學(xué)生的玩笑話(huà)道出了大數據時(shí)代我們都面臨的一個(gè)重大問(wèn)題,那就是隱私權問(wèn)題。美國某機構曾做過(guò)一個(gè)實(shí)驗,根據網(wǎng)友的搜索記錄來(lái)篩定目標,雖然信息已經(jīng)進(jìn)行了模糊,還是有不愿意出柜的基友被篩出來(lái)了,基友的媽媽非常震驚和生氣,將該機構告上了法庭。

      微博上常有維權人士聲稱(chēng)電話(huà)被政府監聽(tīng)了,因為手機語(yǔ)音出現了不正常的聲音,其實(shí)這是他們多心了,他們的電信知識還停留在用鱷魚(yú)夾搭電話(huà)線(xiàn)竊聽(tīng)的階段。并不是說(shuō)政府不會(huì )竊聽(tīng),而是說(shuō)如果政府竊聽(tīng)你的電話(huà),你是絕對察覺(jué)不出來(lái)的,多手段全方面的監控手段早已超出了外行的想象力。即使是技術(shù)內行,例如賣(mài)國家機密的間諜被收網(wǎng)后往往會(huì )馬上崩潰,他所有的電話(huà)短信郵件出行會(huì )面談話(huà)都有清清楚楚的鐵證。

      犯罪成本太高了,將來(lái)無(wú)死角的攝像監控頭會(huì )記錄下一切,即使你犯罪時(shí)蒙著(zhù)面,根據前兩天你沒(méi)蒙臉踩點(diǎn)時(shí)的錄像,通過(guò)姿態(tài)步態(tài)的匹配算法就能把你篩選出來(lái)。現在公安系統有句話(huà)“只要上手段,沒(méi)有查不出來(lái)的”,上手段就是指包括攝像頭監控、手機監控、網(wǎng)絡(luò )監控等綜合手段。現在的基礎設施還不完善,等將來(lái)所有的路燈桿都變成了多傳感監控器,加上強大的大數據分析能力,你還想咋藏?

      更有意思的是,將來(lái)的犯罪逮捕會(huì )變成事前,有天你啥事沒(méi)做睡在床上就被逮捕了,警察通告你:根據警方對你所有信息的大數據分析,顯示你已經(jīng)知道了老婆出軌之事,根據以往犯罪案例及你本人性格的大數據分析結果,你有76.3%的概率會(huì )在本周內對老婆進(jìn)行輕傷以上程度的犯罪,超過(guò)了法律規定的60%輕傷以上犯罪概率必須入監的標準,特羈押你一個(gè)月,根據大數據分析結果,放出來(lái)后的你仍然犯罪的概率會(huì )降低到法律規定可以釋放的5%以下。

      聽(tīng)著(zhù)很安全吧?但是不是也感到了毛骨悚然?在大數據時(shí)代,我們每個(gè)人都是赤條條地在信息社會(huì )中裸奔,真的是光著(zhù)屁股一絲不掛地那種裸奔,難到?jīng)]有人意識到這點(diǎn)嗎?當然不是,英國等西方國家早就對街道監控攝像頭展開(kāi)了全社會(huì )的大討論,安全與隱私該如何權衡?隨著(zhù)近年來(lái)隨著(zhù)恐怖主義的盛行,安全顯然更重要了,公民們很無(wú)奈地同意把更多的隱私權交給了政府,以獲得更大的安全感。

      必須對公民隱私信息進(jìn)行分級制的嚴管,公安部門(mén)掌握著(zhù)每個(gè)人的開(kāi)房信息,如果不涉及到重大違法犯罪的話(huà),絕不能濫加使用,更不能透露給當事人的配偶,否則社會(huì )就會(huì )大亂。掌握信息和利用信息的應是獨立的兩個(gè)機構,如果讓利用信息的公安部分掌管公民所有隱私信息,那就會(huì )成為一個(gè)人人自危的恐怖國家。

      我們現在該如何做好迎接大數據時(shí)代的準備?我覺(jué)得應該培養公權機構絕不能泄露公民隱私的社會(huì )輿論,前幾天網(wǎng)上流傳著(zhù)范冰冰的機場(chǎng)安檢照,記者們以此做娛樂(lè )文章稱(chēng)人家如何如何,這就是一個(gè)極壞的兆頭!如果放任這種公權力的濫用,我們每個(gè)人將來(lái)都會(huì )成為光屁股裸奔的人,光不光屁股則取決于掌握公民信息的權力人士的一念之差。

      最近有報道稱(chēng)銀行內鬼販賣(mài)賬戶(hù)信息,銀行方面居然稱(chēng)這事主要靠自覺(jué),他們內部查不出來(lái)。這事也是大惡!查不出來(lái)是因為銀行內部缺乏相應的技術(shù)手段,根本就沒(méi)有建立起相應的信息保密制度,這種不作為是未來(lái)大數據時(shí)代的嚴重隱患。

      前兩天我參加一個(gè)學(xué)生的婚禮,作為導師我被安排在領(lǐng)導桌,剛坐定就有個(gè)陌生人來(lái)照相,詢(xún)問(wèn)后才知是婚宴酒商的員工,把我們作為背景來(lái)照酒的照片,估計是用于宣傳。我把他轟走了,我不愿意這個(gè)數據留在網(wǎng)上,不愿意讓它將來(lái)作為分析我的大數據資料。

      結論:

      與以往的抽樣統計不同,大數據使用的是全部數據,更著(zhù)重的是效率而不是數據的精確性,關(guān)注的是相關(guān)性而不是因果性,這些特點(diǎn)造就了大數據對事物發(fā)展的極強的預測能力,它可以給我們帶來(lái)更安全更便捷的新生活,同時(shí)也給個(gè)人隱私帶來(lái)了巨大的威脅,對掌握公民隱私信息的公權力的嚴格控制,應該成為全社會(huì )的共識。

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 哈尔滨市| 娄烦县| 荆州市| 黎川县| 牙克石市| 台中县| 绵竹市| 马边| 永宁县| 阳城县| 郎溪县| 正阳县| 东兰县| 剑川县| 会宁县| 沿河| 凤山县| 宜阳县| 仪征市| 大同市| 平昌县| 上虞市| 富锦市| 延边| 古丈县| 多伦县| 富源县| 全椒县| 道孚县| 丹阳市| 郧西县| 平南县| 霍城县| 沾化县| 江津市| 洱源县| 长顺县| 高尔夫| 东台市| 满城县| 卢龙县| http://444 http://444 http://444 http://444 http://444 http://444