數據正在對于我們的生活進(jìn)行著(zhù)翻天覆地的改變,萬(wàn)物互聯(lián),云計算,各行各業(yè)的互聯(lián)網(wǎng)化使我們提前進(jìn)入了大數據時(shí)代,而這些流動(dòng)的數據通過(guò)新的技術(shù),也將被賦予新的能量,生動(dòng)的描述未來(lái)是一項挑戰,因為真實(shí)的未來(lái)很少與科幻世界保持一致。這次,七牛為眾人打造了一場(chǎng)數據盛筵,從產(chǎn)業(yè)角度和技術(shù)角度為我們解讀數據從何而來(lái),數據如何應用,數據又將如何重構未來(lái)。
作為開(kāi)場(chǎng)演講,七牛CEO許式偉立足于移動(dòng)互聯(lián)網(wǎng)時(shí)代的新機遇新背景,分析新時(shí)代數據之于商業(yè)模式再構的意義,以及在海量數據情況下非結構數據的處理一系列問(wèn)題。當然還有七牛是如何重新定義云存儲的。
以下是七牛CEO許式偉開(kāi)場(chǎng)演講內容(根據速記整理):
感謝大家對于七牛的支持,今天能舉辦D-Future大會(huì ),從我個(gè)人而言,心來(lái)感慨萬(wàn)千,七牛到今天已經(jīng)有四年左右的歷史。應該說(shuō)是非常年輕的一個(gè)公司。今天有幸舉辦這樣一場(chǎng)大會(huì ),最重要的一點(diǎn),我覺(jué)得首先是這個(gè)時(shí)代給我們的一個(gè)機遇,我覺(jué)得在座的各位都是這個(gè)時(shí)代的弄潮兒,今天有幸和大家談一談我們對于數據對于互聯(lián)網(wǎng)時(shí)代的看法,這是七牛的榮幸,也是我們能夠和大家共同,如何重構,用技術(shù)的方式,基于數據重構我們的商業(yè)。
沒(méi)有創(chuàng )新與變革的互聯(lián)網(wǎng)產(chǎn)業(yè)一定會(huì )死
我覺(jué)得我們是非常非常幸運的,我個(gè)人畢業(yè)的時(shí)候,剛好是互聯(lián)網(wǎng)這個(gè)新興的產(chǎn)業(yè)剛剛開(kāi)始的階段,我覺(jué)得前面的十幾年很精彩,但是其實(shí)今天大家也能感覺(jué)到,更加精彩的時(shí)刻,因為互聯(lián)網(wǎng)剛剛開(kāi)始的時(shí)候,它只是一個(gè)新興的產(chǎn)業(yè)。
今天大家都說(shuō)互聯(lián)網(wǎng)產(chǎn)業(yè),但是很快在不久的將來(lái),互聯(lián)網(wǎng)不再是一個(gè)新興的產(chǎn)業(yè),它其實(shí)是一個(gè)新興的生產(chǎn)力,和所有的實(shí)體經(jīng)濟和各行各業(yè)都息息相關(guān)。所以今天為什么,我們認為它是一個(gè)更加有巨大的商業(yè)機會(huì )的時(shí)代,是因為互聯(lián)網(wǎng)之前是一個(gè)行業(yè),它的影響仍然只是非常小的一個(gè)人群。但是今天我們看到,每一個(gè)人都已經(jīng)聯(lián)網(wǎng)了,基本上,中國超過(guò)半數的人群,已經(jīng)隨時(shí)隨地的都在網(wǎng)絡(luò )上了。那么這個(gè)給我們的影響是非常巨大的。它會(huì )讓我們的商業(yè)因為有了互聯(lián)網(wǎng)而發(fā)生重新洗牌的機會(huì )。所以今天我們看到,所有的公司都有非常巨大的危機感,因為他們如果沒(méi)有變化,他們可能就很可能面臨淘汰,他們也許就會(huì )從這場(chǎng)競賽中出局。但是同時(shí)我覺(jué)得這也是一個(gè)新的機會(huì )的來(lái)臨。因為我們如果跟隨了這個(gè)時(shí)代的機遇,我們能夠在其中抓住里面帶給我們的機會(huì ),我相信你就可以成為你所在行業(yè)的領(lǐng)頭羊。
今天為什么那么多人談互聯(lián)網(wǎng)轉型,為什么大家都會(huì )談創(chuàng )新,談顛覆,是很有道理的。因為我們正面臨著(zhù)一個(gè)前所未有的機遇,如果不變,那么你一定會(huì )死。
大家今天都知道D-Future是一個(gè)以數據為主題的會(huì )議,我們確實(shí)現在正用一個(gè)詞來(lái)涵蓋這個(gè)互聯(lián)網(wǎng)時(shí)代,我認為就是兩個(gè)字:數據。實(shí)際上信息一直都存在,只是它以前是在原子世界,但是有了計算機有了互聯(lián)網(wǎng)之后,我們知道這個(gè)世界多了一個(gè)虛擬世界,比特世界。這個(gè)新的世界正在以每三年翻一倍的速度在增長(cháng)。為什么會(huì )有這樣的一個(gè)變化?是因為其實(shí)人,大家去分析一下人的能力,我們會(huì )發(fā)現,其實(shí)人本身的邏輯能力處理能力是非常有限的,我們很難去很快的執行一個(gè)對計算機來(lái)說(shuō)非常簡(jiǎn)單的預算,比如71×131等于多少,我相信沒(méi)有很多人能很快的答出來(lái),但是計算機執行這樣的計算,是納秒級的計算。所以計算機和互聯(lián)網(wǎng)延伸了人的邏輯能力,讓我們有了很強的分析和預測未來(lái)的能力。
大數據與互聯(lián)網(wǎng)轉型后的商業(yè)新常態(tài)
這是一個(gè)數字化的洪流。在這樣的一個(gè)洪流下,我覺(jué)得對于我們的商業(yè),其實(shí)是產(chǎn)生了一個(gè)非常巨大的影響。所以今天我們也想談?wù)劵ヂ?lián)網(wǎng)轉型后的商業(yè)新常態(tài)到底是什么樣的。
首先我們來(lái)看一看業(yè)務(wù)本身,因為互聯(lián)網(wǎng)化最基礎的一個(gè)層面的訴求,就是業(yè)務(wù)要上網(wǎng),如果我們想象一下,或者我們對比一下傳統的商業(yè)和新興的商業(yè)形態(tài),它最大的一個(gè)不同是什么?或者我們用一個(gè)詞去概括舊的商業(yè)形態(tài)是什么東西。我個(gè)人想到的一個(gè)詞就是一手交錢(qián)一手交貨,這就是舊的商業(yè)形態(tài)最基本的商業(yè)特色。但是互聯(lián)網(wǎng)改變了這一切,互聯(lián)網(wǎng)讓遠程交易成為了可能。但是遠程產(chǎn)生一個(gè)服務(wù),這個(gè)影響是非常非常巨大的。因為我們的業(yè)務(wù)的場(chǎng)景比以前開(kāi)闊很多,我們以前也許只能影響我們周?chē)浅R恍∪旱娜巳海蛘咦疃辔业墓咀龃罅酥螅以诓煌牡胤介_(kāi)不同的分部,但是你影響的人群仍然只是你公司能到達的范疇。
不過(guò)互聯(lián)網(wǎng)改變了這一切,它讓商業(yè)可以讓你人不用過(guò)去,和世界某一角落的人就可以做生意,這個(gè)影響非常非常巨大。我們來(lái)看如何達到的,其實(shí)我們分析一下商業(yè)在互聯(lián)網(wǎng)上之后,業(yè)務(wù)有什么樣的特征,我概括了一個(gè)詞,非結構化數據是人的自然溝通的方式。所以在上網(wǎng)之后,我們發(fā)現大量的數據被映射,或者被影像到現實(shí)生活當中,這也是數據化生活洪流的根本化的原因。
我們要表達我們的意愿,就是非結構化數據,什么叫非結構化數據呢?就是自然表達的語(yǔ)言的文本,以及圖片、音頻、視頻等等這些媒介,都是非結構化數據。那么這些數據天然是人非常容易理解的。但是其實(shí)計算機很難理解。剛剛我講了,計算機有非常強大的邏輯能力,但是計算機在語(yǔ)意的理解上是非常原始的,可能連三歲嬰兒的水平都達不到。在這樣的情況下人怎么樣溝通呢?就是非結構化數據。非結構化數據就是傳遞人的意愿。比如我拿起電話(huà)說(shuō)幾段語(yǔ)音,告訴我的客戶(hù)或者是告訴我想要交易的人,告訴他我想要表達的東西。或者是通過(guò)圖片,表達你的商品,你的商品長(cháng)什么樣,你的商品怎么使用的。所以我們可以看到非結構化數據自然而然會(huì )成為交互的一個(gè)中介。而這個(gè)也是原子世界映射到比特世界一個(gè)根本原因,因為業(yè)務(wù)要上網(wǎng)。
第二個(gè)層次,當業(yè)務(wù)上網(wǎng)之后,我們會(huì )發(fā)現,舊的商業(yè)過(guò)程當中我們也會(huì )談運營(yíng)。但是舊的商業(yè)過(guò)程當中,我們如何運營(yíng),大部分的企業(yè)就是做調查問(wèn)卷,我們會(huì )找一些樣本的客戶(hù)去問(wèn)他們,你對我們的服務(wù)有什么樣的看法,你希望我們做什么樣的一個(gè)新的服務(wù)來(lái)去為你提供,但是今天我們會(huì )發(fā)現,其實(shí)有了互聯(lián)網(wǎng),有了計算機之后,這一切也發(fā)生了變化,首先業(yè)務(wù)上網(wǎng)之后,天然你可以記錄每一次的交易過(guò)程,可以把所有用戶(hù)的行為都能夠記錄下來(lái),所以今天我們會(huì )發(fā)現,運營(yíng)的基因的分析的背景,不是取樣數據,而是全量的用戶(hù)的行為記錄。所以我們每天都在產(chǎn)生,對于任何一個(gè)互聯(lián)網(wǎng)公司來(lái)說(shuō),每天都在產(chǎn)生上千萬(wàn)上億的調查問(wèn)卷。而這些調查問(wèn)卷,如何去對你的商業(yè)去進(jìn)行改進(jìn),這個(gè)是一個(gè)非常重要的課題。也是我們今天為什么會(huì )談大數據,會(huì )談精益的運營(yíng)的原因。
我們先看一看非結構化數據數據的挑戰。現在世界上正以每三年翻一番的數據的增長(cháng)速度,而這其中95%以上,都是非結構化數據,而且這個(gè)95%的比例還在不斷的提升,而不是下降。也就是說(shuō)我們會(huì )有越來(lái)越多的非結構化數據在其中。所以這個(gè)數據的存儲量是非常非常驚人的,如此驚人的數據,應該如何存儲,如何讓它不丟失,如何進(jìn)行分析和挖掘,這其實(shí)是個(gè)很重要的課題。剛才我也講了,非結構化數據。其實(shí)今天主要的用途是用來(lái)做交互,但是我們剛才也講了,今天計算機對于語(yǔ)意的理解是非常原始的,可能連三歲小孩都不如。所以在交互上,我們發(fā)現它仍然有非常巨大的提升空間。
我們知道我們有自然語(yǔ)言,NLP什么的,技術(shù)數據來(lái)講,這樣的一些技術(shù),但是它今天仍然很原始。我們也會(huì )知道有語(yǔ)音的識別,有視頻或者圖片里面對于場(chǎng)景對于動(dòng)作的識別等等,但是這些新的分析方法都還非常的早期,我們把這些新的分析方法,如果能夠往前走的話(huà),那么我們可以想象,其實(shí)這個(gè)數據時(shí)代會(huì )有更大的想象空間在里面。正因為我們的分析能力還很原始,所以今天幾乎所有的非結構化數據都沒(méi)有二次分析。所謂的二次分析,就是我們除了直接的業(yè)務(wù)交易過(guò)程,比如說(shuō)我想表達我的一個(gè)意愿。但是二次分析是可能的。因為用戶(hù)每一次溝通,每一次交互過(guò)程當中,沉淀了大量的信息,這些信息如何挖掘,也是很重要的課題。
接下來(lái)談一談?dòng)脩?hù)行為的記錄,我認為這個(gè)是遠未充分挖掘的金礦。因為今天很多企業(yè)沒(méi)有用戶(hù)行為記錄。因為他們大部分業(yè)務(wù)連商網(wǎng)還沒(méi)有。所以他們今天想得更多的是讓我的業(yè)務(wù)上網(wǎng)。但是其實(shí)哪怕是互聯(lián)網(wǎng)公司,今天日志的處理能力,或者是我今天能處理多少的數據量,以及我的分析方法,能產(chǎn)生對于我經(jīng)營(yíng)有效的指導數據,這方面的能力還是很不足。大部分的公司停留在比如說(shuō)日活躍用戶(hù)的分析等等基礎的過(guò)程。第三點(diǎn)是絕大部分企業(yè)日志會(huì )定期的刪除,因為他們不能理解用活分析之后還能干什么。因為日志是計算機生成的,所以它天然可以很容易被計算機所去理解,這個(gè)理解是全面的,不會(huì )損失什么信息。所以日志本身是一個(gè)更高含金量的金礦,但是大部分的企業(yè)其實(shí)并沒(méi)有意識到這一點(diǎn)。所以今天日志的使用量,我認為遠遠處于一個(gè)非常原生的一個(gè)狀態(tài)。
大數據構建未來(lái)
那么今天談這些對于我們來(lái)說(shuō)有什么樣的意義呢?這個(gè)就涉及到七牛對于自己的定位。如果用一句話(huà)來(lái)描述七牛對于自己的定位,我們會(huì )這么解釋。七牛是最開(kāi)放最完備的數據服務(wù)供應商,最開(kāi)放的含義是什么呢?我們希望不是七牛把所有的數據服務(wù)給提供了,我們希望搭建一個(gè)平臺,能讓所有對于數據,因為我們剛剛分析了非結構化數據,分析了日志相關(guān)的一些挑戰,這些挑戰絕對不是七牛一家公司所能解決的,我們希望有志于去提升這個(gè)數據的應用價(jià)值的企業(yè),都能夠和七牛一起,共同開(kāi)拓這個(gè)世界,而不是七牛單獨一家去做這樣的事情。最完備的含義是,我們希望能夠分析這一些數據的使用場(chǎng)景,去觸及它的方方面面,去構建一個(gè)最完整的基礎戰,七牛完整的構建一個(gè)商業(yè)。這個(gè)是七牛對于一個(gè)數據服務(wù)商的一個(gè)定位。
今天七牛做了一些什么,大家都知道七牛現在叫七牛云存儲,所以七牛如何定義云存儲,其實(shí)七牛之前已經(jīng)有很多的云存儲的供應商,最典型的是亞馬遜。但是七牛,我們認為我們重新定義了云存儲這樣一個(gè)概念,為什么呢?因為在A(yíng)W上的S3,我們認為它是一個(gè)零件,什么零件呢?就是云主機的復數品。因為S3主要的能力是一個(gè)數據倉庫的能力,它可以放東西,可以取東西。但是七牛認為云存儲不應該僅僅局限于我是一個(gè)數據的存儲的空間。首先它是一個(gè)數據存儲的空間,所以我們有數據存儲這樣一個(gè)基礎服務(wù)。這個(gè)基礎服務(wù),它的核心價(jià)值很簡(jiǎn)單,就是可靠,然后便宜。然后高可用,這個(gè)是它最基礎的幾個(gè)能力,第二個(gè)能力是什么呢?第二個(gè)能力是加速。七牛可能是全球第一個(gè)提出存儲加速和數據處理這樣三個(gè)詞來(lái)描述云存儲這樣一個(gè)服務(wù)的一個(gè)公司。當然后面我們看到業(yè)界也逐漸的大家認同了這樣一個(gè)模式,所以我們看到,幾乎所有的云存儲都在往這個(gè)方向在走。
那么加速是什么呢?七牛的加速,我們是用一個(gè)相對比較獨特的方式,因為大家聽(tīng)到加速這個(gè)詞,都會(huì )想到CDN,而CDN是存在了十幾年的一個(gè)服務(wù)形態(tài)。七牛的加速到底和他們有什么不同呢?這個(gè)跟七牛的做事方式很有關(guān)系。我們認為不差一個(gè)新增的CDN公司。所以七牛從加速角度來(lái)講,我們定位成我們是CDN融合的公司。我們希望協(xié)助客戶(hù)管理CDN,讓這些CDN融合在一起,能夠提供更高品質(zhì)的,或者是更高可用性。因為任何一家CDN,很可能會(huì )出現區域性的故障,這樣的情況下,我們可以協(xié)助自動(dòng)的去解決。然后有一些CDN可能在比如在上海快一點(diǎn),有的CDN在廣州快一點(diǎn),我們可以融合,可以形成更高速的訪(fǎng)問(wèn)。第三個(gè)層次是數據處理,數據處理這個(gè)詞比較抽象,我們如果去展開(kāi)來(lái)講,它的就呼應我剛才講的那個(gè)非結構化數據的挑戰里面最重要的一點(diǎn),就是我們對于非結構化數據,計算機對于非結構化數據的理解其實(shí)是非常原始的階段,所以七牛成為一個(gè)真正的開(kāi)放的云存儲,最重要的點(diǎn)在于我們的數據處理是開(kāi)放式的平臺,我們知道七牛最近接入了非常多的數據處理的服務(wù),比如說(shuō)圖片的建網(wǎng),比如我們正在接入的人臉識別等等。數據處理的業(yè)務(wù)是做不完的。七牛最開(kāi)始提供的一些基礎的數據處理,比如音視頻的打碼、打水印等等。這個(gè)是個(gè)開(kāi)放的平臺,待會(huì )我們的團隊會(huì )講,這個(gè)我不講了。
還有什么呢?還有一點(diǎn)就是直播!因為視頻或者是音頻,它是一個(gè)非常特殊的介質(zhì),因為它有一個(gè)值,就是在線(xiàn)溝通的需求,這是傳統的存儲所沒(méi)有的。當然因為視頻和音頻它本身有流媒體的屬性,所以它天然有點(diǎn)播的需求。七牛的霹靂云可以把直播和點(diǎn)播融合的平臺。我們可以在霹靂云上完成用戶(hù)的溝通,以及事后的點(diǎn)播,以及不同的網(wǎng)絡(luò )下不同碼率的轉換。
介紹了七牛當前云存儲的概念之后,我們來(lái)看看七牛的一些數據,今天七牛的注冊企業(yè)有28萬(wàn),我們直接覆蓋網(wǎng)民每月月活有3.7億,我們的平臺上產(chǎn)生了1600萬(wàn)億的文件,每天我們有750億的請求。我們數據處理,數據處理本身可以被加速的,也就是同一個(gè)文件,哪怕它多次訪(fǎng)問(wèn),它只會(huì )處理一次,所以它的量會(huì )相對少一點(diǎn)。今天七牛的平臺上每天有12億的數據的處理量。
總結一下七牛干了什么,我們認為我們重新定義了云存儲,重新定義如何服務(wù)商業(yè)。很多人會(huì )問(wèn)七牛未來(lái)會(huì )做一些什么,七牛到底會(huì )往什么方向發(fā)展。我們七牛首先,我認為在這個(gè)時(shí)代,要符合這個(gè)時(shí)代的主題思想,就是創(chuàng )新和創(chuàng )造,今天和數據相關(guān)的幾個(gè)詞有云計算,有大數據。這些詞七牛是如何看待的,如何重新定義這些詞。我覺(jué)得2016年可以期待,這就是我今天的演講內容,謝謝大家。