中國信息通信研究院云計算與大數據研究所所長(cháng)何寶宏在首日會(huì )議上作“預見(jiàn)大數據的2018”主題報告,以下是內容實(shí)錄:

中國信息通信研究院云計算與大數據研究所所長(cháng) 何寶宏
大家下午好!我研究20多年的互聯(lián)網(wǎng),現在主要在禪修如何為互聯(lián)網(wǎng)技術(shù)相面。在座如果感興趣可以聯(lián)系我,共同探討互聯(lián)網(wǎng)發(fā)展規律。哲學(xué)問(wèn)題很有意思,可以讓你們少走彎路。
大數據從2011年至今7年的時(shí)間,也該七年之癢。我個(gè)人的觀(guān)點(diǎn),技術(shù)在7年的時(shí)候至少要換一種說(shuō)法,7年不能總講一個(gè)故事。2011年麥肯錫下一個(gè)前沿,2012年紐約時(shí)報大數據時(shí)代降臨。
經(jīng)過(guò)多年發(fā)展,大數據正在遭遇成長(cháng)的煩惱,最近行業(yè)有點(diǎn)煩。某個(gè)耿直BOY說(shuō)中國人大多數情況下愿意用隱私交換便利性。歐盟5月份實(shí)施GDPR通用數據保護規則,核心是個(gè)人隱私數據,要求用戶(hù)明確同意與數據的流動(dòng)權。用戶(hù)數據追求精益數據小型化,很明顯的要求。最近的大數據在殺熟,Facebook遭遇窘境,包括今日頭條也遭遇窘境。技術(shù)必須有變化進(jìn)行方向性的調整。這是又一個(gè)三角困境,技術(shù)上追求很多目標時(shí),目標之間容易出現沖突。尤其數據方面,個(gè)人隱私、國家安全、便利性三者不可都得,只能選擇兩個(gè)。2013年奧巴馬講到,不可能既享有100%的安全,又享有100%的隱私,而且沒(méi)有絲毫的不便,我們不得不做出選擇。大數據也需要做出選擇,二選一時(shí)會(huì )發(fā)生一些調整。
這些事件意味著(zhù)什么?短期看,一些大數據應用真正落地。如果大數據在用戶(hù)畫(huà)像及營(yíng)銷(xiāo)沒(méi)有落地,事情不會(huì )發(fā)生。反向證明大數據真的已經(jīng)成功應用,所以才能出現問(wèn)題。幾年前搞云計算可靠性不行,我說(shuō)恰恰是人們開(kāi)始廣泛使用云計算,要不然不會(huì )關(guān)心問(wèn)題。中期看,保護個(gè)人隱私必然是未來(lái)3年或更長(cháng)時(shí)間內的工作重中之重,全行業(yè)必須團結就有效的保護用戶(hù)隱私制定規則,需要恰當地技術(shù)手段提供支持。長(cháng)期看,最近一系列事件的爆發(fā)是不是意味著(zhù)已經(jīng)使用20多年的互聯(lián)網(wǎng)免費模式選稿終結。恐怕這是更大的議題,免費模式都是使用用戶(hù)數據換取用戶(hù)服務(wù)的便利性。
個(gè)人判斷,行業(yè)發(fā)展需要調整(變化)。從過(guò)去7年時(shí)間強調技術(shù)、發(fā)展,下一步更多的關(guān)注合規、隱私保護、安全。任何產(chǎn)業(yè)發(fā)展到第二階段必須要強調關(guān)注合規性、安全及隱私問(wèn)題,早期會(huì )重點(diǎn)關(guān)心技術(shù)與發(fā)展。正在從幾年來(lái)高估大數據的影響開(kāi)始轉變?yōu)榈凸来髷祿挠绊懀丝偸菚?huì )高估技術(shù)短期影響,而低估技術(shù)的長(cháng)期影響。我們即將迎來(lái)開(kāi)始低估大數據長(cháng)期影響的階段,現在進(jìn)入回歸理性階段,行業(yè)正在回歸理性。對大數據以前高估的價(jià)值更加理性,以前不太關(guān)注的隱私必須補課,需要3年左右的時(shí)間。2021年前后會(huì )迎來(lái)新一輪的黃金發(fā)展期。
從市場(chǎng)看,我們還將繼續維持規模小增速快的態(tài)勢。過(guò)去的幾年大數據的主要應用場(chǎng)景是互聯(lián)網(wǎng),未來(lái)幾年的核心是大數據與傳統行業(yè)、實(shí)體經(jīng)濟的深度融合。十九大報告講的很清楚,我們必將迎來(lái)的是跟傳統行業(yè)如何更好使用大數據的過(guò)程,因為傳統行業(yè)更容易賺錢(qián)。
從技術(shù)看,排在第一的是開(kāi)源,開(kāi)源正在引領(lǐng)各行各業(yè),大數據不例外。分布式,今天上午報告也講到實(shí)現在線(xiàn)分析的分布式,下一步需要實(shí)現在線(xiàn)處理事物的分布式。OLAP/OLTP的融合是新的趨勢。隨著(zhù)產(chǎn)業(yè)的發(fā)展完善,意味著(zhù)產(chǎn)業(yè)的分工越來(lái)越細,相互之間的協(xié)作會(huì )越來(lái)越麻煩。反推的結果是我們所做的大數據產(chǎn)品與技術(shù)需要標準化、模塊化,越來(lái)越模塊化。因為不可能做龐大體量堆在一起,運維需要自動(dòng)化比較好理解,我們越來(lái)越龐大。機器產(chǎn)生的事情只能用機器解決,大數據產(chǎn)生的運維問(wèn)題只能靠大數據產(chǎn)生的自動(dòng)化運維解決。容器化,今天的大數據也需要借助容器的思想封裝交付。幾年前發(fā)現軟件開(kāi)發(fā)交付等跟環(huán)境關(guān)系過(guò)于密切,是不是今天看到大數據也是這個(gè)問(wèn)題。大數據遷移時(shí)與環(huán)境配置的關(guān)系過(guò)于密切,我們應該發(fā)面向技術(shù)類(lèi)似于容器的技術(shù)。專(zhuān)用硬件,隨著(zhù)摩爾定律的減速,越來(lái)越多的需要靠一些專(zhuān)用的而不是通用的硬件解決問(wèn)題。面向特定場(chǎng)景數據處理的專(zhuān)用硬件或軟硬件結合會(huì )是重要的發(fā)展考慮的方向。
從算法看,算法的透明度會(huì )成為需要關(guān)心的議題。今天看到雖然把數據開(kāi)放使得數據透明,如果算法是黑箱還會(huì )出現你想干什么就干什么的現象。隨著(zhù)數據越來(lái)越多,數據越來(lái)越開(kāi)放要打破算法黑箱,解決算法的歧視問(wèn)題和算法殺熟問(wèn)題。很多算法都一樣,尤其金融市場(chǎng)會(huì )引發(fā)共振及算法移情問(wèn)題。開(kāi)放算法是必須要考慮的議題,剛剛討論過(guò)網(wǎng)絡(luò )中立問(wèn)題。算法該不該中立?算法該不該透明?算法該不該監管?我想需要。
從資產(chǎn)看,過(guò)去幾年知道數據是資產(chǎn),市場(chǎng)教育已完成。但如何把數據變成資產(chǎn)還在迷茫中,前幾年想是否通過(guò)財務(wù)手段把數據變?yōu)橘Y產(chǎn),現在看是不夠的,需要更多的技術(shù)支撐。未來(lái)三年要學(xué)習如何把數據變成資產(chǎn),不僅通過(guò)資本與管理的手段,還需要新的技術(shù),需要創(chuàng )新算法、創(chuàng )新技術(shù)、創(chuàng )新模式。
從流通看,我們處于男耕女織的時(shí)代,今天調查50%的大數據企業(yè)使用的數據還是自己生產(chǎn)的或隔壁家生產(chǎn)的。大數據說(shuō)是資產(chǎn),但它沒(méi)有變成資產(chǎn)。我們說(shuō)大數據商品,但大數據沒(méi)有變成商品。我們只知道大數據很有價(jià)值,但如何流通還處于早期的階段,需要很多技術(shù)創(chuàng )新、理論創(chuàng )新。30年后得諾貝爾經(jīng)濟學(xué)獎的人一定會(huì )有是干這個(gè)活的,因為需要數字經(jīng)濟時(shí)代的數字經(jīng)濟學(xué)家。今天的經(jīng)濟學(xué)更多的建立在工業(yè)經(jīng)濟的假設之上,上來(lái)就討論工廠(chǎng)、工人與產(chǎn)品,用貨幣衡量?jì)r(jià)值都是工業(yè)時(shí)代的思維。數字時(shí)代需要數字時(shí)代的經(jīng)濟學(xué)家解決數據流通存在的理論問(wèn)題、方法問(wèn)題。處于從農耕產(chǎn)品的貿易到數字產(chǎn)品的轉折,現在不太清楚數據如何做貿易,我們正在探索之中。工業(yè)經(jīng)濟學(xué)正在從數字經(jīng)濟學(xué)躍遷。
從價(jià)值看,需要新的用戶(hù),新的價(jià)值。數據保護問(wèn)題更像隱私危機,我們說(shuō)大數據是石油,石油也經(jīng)歷過(guò)危機,愛(ài)迪生危機。煤油的主要用途是照明,愛(ài)迪生發(fā)明了電燈后是不是石油面臨危機?石油的用途只是照明,可是電燈來(lái)了。后來(lái)改善石油的冶煉技術(shù),煉出汽油,更加廣泛地用于動(dòng)力。今天大數據主要面向人,面向人的大數據分析處理應用依然會(huì )帶來(lái)隱私危機。只要知道的都是隱私,不知道的就不是隱私。凡是能夠發(fā)現處理的最終都會(huì )被歸于用戶(hù)隱私范圍內,必然會(huì )迎來(lái)隱私危機。我們需要新的模式與新的創(chuàng )新,將大數據的使用范圍擴展,使用價(jià)值擴展。不僅僅面向人,可能要面向物聯(lián)網(wǎng)、工業(yè)等各行各業(yè)。過(guò)去幾年更多處理人產(chǎn)生的數據。
從風(fēng)險看,必然會(huì )出現風(fēng)險,數據是資產(chǎn),資產(chǎn)是數據。人類(lèi)的財富正在虛擬化,正在數據化,意味著(zhù)風(fēng)險正在由物理世界、現實(shí)世界遷移到虛擬世界、數據世界。哪里有風(fēng)險,哪里就有保險。信通院聯(lián)合中國人保推出云計算的保險有四年的時(shí)間,希望與業(yè)界一起研究如何為數據買(mǎi)保險,如何通過(guò)金融手段解決數據面臨風(fēng)險問(wèn)題。
從理想看,萬(wàn)物皆數據,數據皆兄弟,我們需要連接。單個(gè)的孤島數據價(jià)值不大,我們必須搞流通。我們是連接的時(shí)代,流通產(chǎn)生新的價(jià)值。現在不是單體重要,而是單體與別人之間的連接更加重要。數據的價(jià)值不取決于數據本身是什么,而取決于數據跟其它數據之間的關(guān)系是什么,位置是什么,在數據世界處于什么位置。連接比數據本身更重要,我們一定會(huì )連接起來(lái)。我們搞開(kāi)放、共享的核心目的只有一個(gè),讓數據連接流通是長(cháng)期的目標,需要與在座的諸位共同努力。
當摩爾定律逐漸老去的時(shí)候,我們正在迎來(lái)摩爾定律老去的時(shí)代會(huì )不會(huì )死掉,不知道,但會(huì )越來(lái)越慢。摩爾定律減速的時(shí)候會(huì )對整個(gè)行業(yè)帶來(lái)翻天覆地的變化,我們需要改變傳統思維方式。以前覺(jué)得計算資源很便宜,浪費點(diǎn)沒(méi)什么,今天的計算資源越來(lái)越貴,因為摩爾定律減速。以前行業(yè)的增速非常穩定,有節奏感,因為有摩爾定律什么也不干就摩爾定律穩定的讓你增長(cháng)。今天當摩爾定律減速甚至停緩的時(shí)候,行業(yè)當然會(huì )往前走,但不能緊緊依靠摩爾定律,我們要依靠軟件。我們需要更新軟件的結構,最近看到很多新的軟件結構出現原因之一,底層計算資源不再符合摩爾定律增長(cháng)速度,所以要創(chuàng )新軟件與架構的設計。
改進(jìn)算法。以前不太關(guān)心算法的改進(jìn),因為算法改進(jìn)付出的成本可能比摩爾定律芯片買(mǎi)一個(gè)更高。與其改進(jìn)算法,不如再買(mǎi)芯片。今天必須改進(jìn)算法,因為底下的計算資源越來(lái)越貴。算法優(yōu)化成為未來(lái)幾年非常重要的發(fā)展方向,包括大數據處理。因為底層資源再浪費不起。
硬件。以前通用硬件非常廣泛,通用硬件越通用價(jià)格越低,缺點(diǎn)是越通用的性能越差。硬件性能上不去只好優(yōu)化硬件,而不再是通用的硬件。面向數據的軟硬件結合是重要的發(fā)展方向。
當大數據遇到區塊鏈都是用來(lái)處理數據,一個(gè)是希望擴展數據的內心,結構化擴展到更多的數據結構。數據以前做信息,現在做價(jià)值,海量數據提高計算性能。區塊鏈說(shuō)針對關(guān)鍵數據,主要核心目的是為了防篡改,也有計算模式。把一件事分給多個(gè)人做,區塊鏈希望多個(gè)人重復做一件事情,有利于防篡改。一個(gè)用的服務(wù)器積存,一個(gè)是用的P2P網(wǎng)絡(luò ),一個(gè)數據是信息,一個(gè)數據是價(jià)值。大數據處理需要給做大數據的人發(fā)工資,因為激勵是外部的。發(fā)幣的時(shí)候可以?xún)戎茫皇峭ㄟ^(guò)外部的數據。大數據宣傳的口號是相信數據,區塊鏈的口號是相信數學(xué)。
大數據遇到人工智能,大數據做數據的可視化,因為計算機把數據看明白了,可是人看不明白。計算機視覺(jué),因為人看明白了,就是機器看不明白。一個(gè)往左一個(gè)往右,前幾年宣揚大數據主張關(guān)聯(lián)關(guān)系而不是因果關(guān)系,回到了愚昧的原始社會(huì )。機器學(xué)習能證明數據之間有關(guān)聯(lián),但機器學(xué)習為什么出現這樣的結果無(wú)法解釋。證明存在關(guān)聯(lián)關(guān)系,但無(wú)法解釋為什么有因果關(guān)系。當忘記成為例外,讓機器忘記也是一種幸福。發(fā)明很多技術(shù),核心目的就是記住,因為人的記性太差。你忘了黑客沒(méi)有忘記,數據很久遠,以上永流傳。以前發(fā)表文章需要交版面稅,今天刪貼子試一試,遺忘權成為新問(wèn)題。以前只關(guān)注如何記住問(wèn)題,現在關(guān)注如何永久性的消滅數據是工程師新的發(fā)展機會(huì )。
我們做很多數據,只關(guān)心數據從哪里來(lái)的,用完了以后數據去了哪里?大數據基本進(jìn)冷宮,用完了就完了,80%的數據三個(gè)月以后無(wú)人理睬。GDPR隱私數據要滅絕,隱私數據的種族大屠殺。區塊鏈數據價(jià)值得永生,因為是為了防篡改,數據世界的價(jià)值越高壽命越長(cháng)。介質(zhì)壽命,有的數據會(huì )莫名其妙地消失,不知道去哪里,因為介質(zhì)的壽命很短。我們的磁盤(pán)長(cháng)點(diǎn)就是幾十年的壽命,今天存儲的數據千年以后的人怎么找到,如何打開(kāi)word文檔。他們去哪里考古這代人所謂的大數據,到哪里發(fā)現?他們能認出表情包。