第二點(diǎn)不容樂(lè )觀(guān),我們認為這是對大數據的一個(gè)共享和挖掘來(lái)講 ,不太好的特點(diǎn)。 就是在這些行業(yè)里面,這些數據往往是具有很強的獨立性,你想讓它共享,其實(shí)存在了很多的障礙。大家可能都知道這些數據把它分享出來(lái),綜合處理一下可能是有好處的,但是,由于種種的原因,可能有管理制度上的,也可能有這些人的動(dòng)機或者說(shuō)沒(méi)有這個(gè)動(dòng)力去做事情的原因,數據共享的比例是非常低的。我們現在看到的一些數字,當然可能是低于10%,甚至有的地方數據共享率更低,而且這種現象不僅僅是在一些我剛才講到的偏政府一類(lèi)的行業(yè)存在,甚至在我們很多的企業(yè)內部也同樣存在,比如說(shuō)財務(wù)數據和人力的數據有可能就是沒(méi)有辦法共享,也不是沒(méi)有辦法共享,或者說(shuō)他現在壓根就沒(méi)有共享在一起,當然這里面存在種種問(wèn)題。
其中有一個(gè)很重要的問(wèn)題,就是因為這些數據的所有者往往是不同的,因為所有者的不同,其實(shí)你也很難把這些數據留在一起。你要解決所有者的一些顧慮,比如說(shuō)放在一起了,我會(huì )不會(huì )泄密?放在一起了,會(huì )不會(huì )有一些別人不該看到的東西看到,或者篡改,它的安全性如何保證?
第三個(gè)特點(diǎn)是我們認為大數據不同于以前的數據分析很大的一點(diǎn) ,那就是它強調的是我們在行業(yè)間,甚至于包括我們在企業(yè)場(chǎng)合產(chǎn)生的一些數據,綜合分析才叫大數據 。如果只是簡(jiǎn)單的把內部一個(gè)ERP里面,或者財務(wù)報表里面的財務(wù)數據拿出來(lái)跑一跑,這個(gè)可能在十年前、20年前很多人都能做到,根本談不上是什么大數據。大數據一定要更多的來(lái)源,跨行業(yè)、跨領(lǐng)域的數據碰撞,才能真正稱(chēng)之為大數據。
最后一個(gè)就是說(shuō)在這些行業(yè),數據最終的目的 。我們從前面講行業(yè)云到后面講行業(yè)大數據,都是講數據最終一定是要為人服務(wù)的,所有的東西都要轉化成數據服務(wù)才有意義,否則的話(huà),這些東西你即使做了分析、做了挖掘,最后還是放在你的數據庫里面,沒(méi)有把結果跟大家分享,或者說(shuō)沒(méi)有為更多的人產(chǎn)生服務(wù)的話(huà),那這個(gè)云的建設、大數據系統的建設可能意義就不是那么大了。
但是,這樣一個(gè)本來(lái)在內部的數據轉化成一個(gè)服務(wù),在這個(gè)過(guò)程中,這些數據本來(lái)不該公開(kāi)的,或者說(shuō)是如何防止它被外面的人篡改,我數據的可靠性、可用性怎么辦,以及在這里面的一些服務(wù)質(zhì)量問(wèn)題怎么辦,這些都是在行業(yè)大數據發(fā)展過(guò)程中一些不同于我們前面泛泛的講到的,或者說(shuō)它更鮮明的一些特征。
數據處理周期中所遭遇的挑戰
這里面它面臨哪些問(wèn)題呢?首先,我們還是把大數據從一個(gè)數據的收集聚集起來(lái)開(kāi)始,一直到最后,我們把它進(jìn)行分析,進(jìn)行決策,把它展現出來(lái)這樣一個(gè)過(guò)程,包括采集、存儲、分析、可視化,以及最終為決策來(lái)服務(wù)。在每一個(gè)階段,實(shí)際上現在還有很多的問(wèn)題,我們如果要想將大數據推廣到更多的領(lǐng)域,能夠讓更多的行業(yè)用戶(hù),或者說(shuō)傳統的一些信息化用戶(hù)用起來(lái),那么我們必須要來(lái)解決這個(gè)問(wèn)題。
挑戰1:數據收集/清洗/過(guò)濾
第一個(gè),就是在采集和匯總領(lǐng)域的問(wèn)題。因為我們在這一兩年里面頂著(zhù)大數據的名頭去找了很多用戶(hù),很多用戶(hù)聽(tīng)說(shuō)大數據很好,搞完預算以后,要搞大數據,他們也很熱心。但是,你去看一看他的系統,首先第一個(gè)問(wèn)題,數據在哪?很多人想做東西,實(shí)際上并沒(méi)有他要做這個(gè)東西的數據,第一個(gè)問(wèn)題就是數據的歸集,可能很多數據產(chǎn)生了,但是對他來(lái)講,他沒(méi)有一個(gè)有效的辦法把它歸集到系統里面去。當然,這個(gè)歸集可能是技術(shù)手段原因,也可能是一些管理上的原因。
第二個(gè),就算他歸集來(lái)了一些數據,這些數據的來(lái)源也非常復雜,可能是自己產(chǎn)生的,比如說(shuō)他自己去采集,用機器采集也好、用人去采集也好,也有的是從別人那拷過(guò)來(lái)的,然后你也沒(méi)有辦法去保證這些數據都是好的,或者說(shuō)都很適合于來(lái)做他后期的業(yè)務(wù)。也就是說(shuō)在這里面數據質(zhì)量是個(gè)很大的問(wèn)題,數據格式不統一也是個(gè)很大的問(wèn)題。
最后在一些政策或者管理制度上的限制,造成了很多數據沒(méi)辦法統一起來(lái),我們后面可能會(huì )講到一個(gè)例子,是國內一個(gè)很典型的部門(mén),就是公安,大家都覺(jué)得它應該是一個(gè)部門(mén),但后來(lái)發(fā)現里面是N多部門(mén),里面所有的數據在原來(lái)都是互補連通的,這個(gè)現象不僅僅在這樣一個(gè)行業(yè),我們在很多行業(yè)都看到了這樣的問(wèn)題,上下級之間可能不通的,平級部門(mén)之間可能也是不通的。
第一個(gè)要解決的問(wèn)題就是怎么把這些東西歸集起來(lái),解決歸集里面一些技術(shù)的手段,和我們怎么去做標準,怎么把它規范化的問(wèn)題。
挑戰2:數據存儲和管理
第二個(gè)問(wèn)題,這項數據歸集起來(lái)了,就會(huì )遇到一個(gè)問(wèn)題,就是存儲和管理的問(wèn)題。其實(shí)也有很多人說(shuō)我有很好的采集手段,我有很多攝像頭和傳感器,但是這些東西傳回來(lái)很困難,后臺沒(méi)那么大的存儲能力,過(guò)兩天就得重新把它滾一次。在這里面,隨著(zhù)數據規模的日益龐大,同時(shí),數據類(lèi)型也越來(lái)越復雜,可能有圖片、視頻,有能放到數據庫里面的,有放不到數據庫里面的,現在很多的那里保存了很多放到數據庫里面的東西,放不到數據庫的慢慢就被替換掉了,因為實(shí)在太大,放不下。
還有就是在統一存儲過(guò)程中的共享和隱私的問(wèn)題,這個(gè)我們在不止一個(gè)用戶(hù)那邊都會(huì )跟我們提出一個(gè)要求。我們現在建了一個(gè)統一的大池子,以前的數據都放在我這兒,我現在要把數據放到他那去了,你怎么保證我放在他那的數據是安全的?你一定要給我上這個(gè)手段、那個(gè)手段,當然很多用戶(hù)聽(tīng)到的都是傳統的手段,比如說(shuō)強制訪(fǎng)問(wèn)控制、要加密等等,但是在這里面,傳統安全的一些手段,應該說(shuō)這是在云計算模式產(chǎn)生之后大家一直在探討的問(wèn)題,而且也是一直沒(méi)有非常好的答案的問(wèn)題,也就是說(shuō)我聚集起來(lái)以后,怎么防止用戶(hù)之間互相滲透,第二怎么防止后臺的管理員,這個(gè)我以前根本沒(méi)有見(jiàn)過(guò)的人,我要去信任他。