
華為全球產(chǎn)業(yè)展望(GIV)報告顯示,全球數據量將從2018年32.5ZB快速增長(cháng)到2025年的180ZB。但企業(yè)生產(chǎn)活動(dòng)產(chǎn)生的數據中只有不到2%被保存,而其中得到分析利用的不足10%。由此可以看出,在我們人人都提大數據的今天,數據的價(jià)值還遠遠沒(méi)有釋放。
為什么會(huì )產(chǎn)生這一狀態(tài)?原因有很多,例如從數據本身來(lái)說(shuō),數據源日益增多,越來(lái)越多的數據孤島被立起,越來(lái)越難以進(jìn)行有效的數據治理;從技術(shù)角度來(lái)說(shuō),Hadoop、Spark、MPP、NoSQL、kafka、機器學(xué)習、深度學(xué)習不斷發(fā)展,不同技術(shù)解決不同問(wèn)題,如何進(jìn)行異構融合是一個(gè)瓶頸。
總結看來(lái),大數據運營(yíng)之難可以概括為三個(gè)方面。
數據價(jià)值實(shí)現之難
數據接入難、分析難、消費難是實(shí)現數據價(jià)值的三大挑戰,多樣性的業(yè)務(wù)、多樣性的系統、多樣性的數據,導致數據在以往的數據平臺中無(wú)法被有效利用,無(wú)論是數據倉庫還是Hadoop大數據平臺,比較容易形成數據孤島和“數據沼澤”。

具體來(lái)說(shuō),1個(gè)財經(jīng)數據往往涉及30+系統,1個(gè)開(kāi)發(fā)流程涉及400+系統,再加上數據接口協(xié)議不統一,所以也就導致數據接入難的問(wèn)題;數據存儲、大數據處理平臺組件眾多,使得數據分析鏈路變長(cháng),多系統集成難度大,也就導致數據融合分析難;數據消費方面,以某企業(yè)IT系統舉例,數據源有130+萬(wàn)張表,數據平臺有14+萬(wàn)張表,而可消費的只有5000張表,要從130+萬(wàn)張表中尋找目標數據如大海撈針般需耗時(shí)30天左右,進(jìn)一步將目標數據加工成業(yè)務(wù)可使用數據也要耗時(shí)7天左右,找數難、取數難尤為嚴重。
怎么解決這些難題,華為給出的答案是:從數據接入、數據處理和數據使能三個(gè)層面,重定義數據基礎設施。
FusionData:羅馬、高斯與大禹
6月5日,華為發(fā)布智能數據解決方案FusionData,以多樣性算力為依托,其包括了數據接入、數據存儲、數據處理、數據使能等關(guān)鍵部件,從而打通全域數據連接、建立統一的數據平臺、提升實(shí)時(shí)數據服務(wù)能力。
FusionData支持智能的數據全生命周期管理,華為希望引領(lǐng)多樣性數據連接,重定義存儲架構,重定義數據處理平臺,引領(lǐng)數據使能。如何重定義數據基礎設施,釋放數據價(jià)值?FusionData有三個(gè)關(guān)鍵“角色”支撐。
ROMA:
條條大路通羅馬
應對數據接入難題,智能數據連接部件ROMA支持1100多種應用和異構數據源接入,通過(guò)開(kāi)放式數據接入框架可靈活接入第三方數據源。并且其支持分布式消息和API的路由統一配置管理,以及數據多通道傳輸,從而讓數據自由流動(dòng)起來(lái)。
GaussDB:
如高斯般的數據分析天賦
華為上個(gè)月剛剛發(fā)布的分布式數據庫GaussDB是FusionData智能數據處理部件的核心組成。GaussDB是一個(gè)企業(yè)級AI-Native分布式數據庫,它將AI能力植入到數據庫內核的架構和算法中,可以提供更高性能、更高可用、更多算力支持的分布式數據庫。
在實(shí)現對多樣數據源的“羅馬”式數據接入基礎之上,FusionData智能數據處理部件解決數據融合分析難題。其中還包括智能分布式存儲FusionStorage 8.0,以及大數據平臺FusionInsight等,通過(guò)多類(lèi)型數據融合存儲、融合分析引擎等技術(shù)實(shí)現從單一處理到智能融合處理,加速實(shí)現數據價(jià)值。
DAYU:
如大禹治水般進(jìn)行數據使能
其對下承接智能數據處理能力,對上使能數據的行業(yè)應用。智能數據使能部件DAYU通過(guò)智能元數據感知和OneQuery Turbo技術(shù)構建數據處理與業(yè)務(wù)創(chuàng )新的橋梁。一方面,自動(dòng)感知和采集多個(gè)系統的元數據,并進(jìn)行智能化分級分類(lèi),支撐數據尋找秒級響應;另一方面,提供統一的數據訪(fǎng)問(wèn)接口,使得數據獲取速度提升10倍以上。
FusionData:提供數據湖能力
由此可以看出,FusionData解決了各方數據的匯聚統一接入問(wèn)題,并提供了采-存-算-管-用全生命周期管理能力,讓數據存得下、流得動(dòng)、算得快、用得好,從而真正將數據資源轉變?yōu)閿祿Y產(chǎn)。
通過(guò)將存儲與計算分離,存儲結構化、非結構化和半結構化數據,并通過(guò)統一視圖提供開(kāi)放訪(fǎng)問(wèn),FusionData儼然成為一個(gè)“數據湖”。
事實(shí)上,華為構建智能數據解決方案的目的就是為用戶(hù)打造數據湖(DATA LAKE)能力。這一概念最早由Pentaho的CTO James Dixon 提出:“如果數據集市是一個(gè)商店的瓶裝水,數據被過(guò)濾包裝結構化以供使用——數據湖則是在更自然狀態(tài)下的大量的水。數據湖中的數據來(lái)源于不同地方,用戶(hù)可以進(jìn)入數據湖中按需提取所需要的數據”。
也就是說(shuō),所有的數據本質(zhì)上為上層應用調用,數據形成湖。數據湖不遷移,不隨硬件而動(dòng),通過(guò)數據使能,甚至讓上層應用對下面數據無(wú)感知,最終“悄無(wú)聲息”釋放數據價(jià)值。
一家企業(yè)一個(gè)數據湖,一座城市一個(gè)數據湖,數據助推的行業(yè)智能化由此而來(lái)。
加速構建“數據+智能”生態(tài)
“數據成為新生產(chǎn)資料,智能成為新生產(chǎn)力”。這是華為的判斷,也是業(yè)內的共識,這背后代表著(zhù)新的數字經(jīng)濟時(shí)代。“數據+智能”改變各行各業(yè),并創(chuàng )造新的產(chǎn)業(yè)價(jià)值和社會(huì )價(jià)值。
華為更希望構建開(kāi)放、合作、共贏(yíng)的生態(tài)環(huán)境,這也是重定義數據基礎設施過(guò)程中必走的一步。通過(guò)聯(lián)合客戶(hù)和合作伙伴,從行業(yè)應用、平臺工具、標準組織和社區三個(gè)層面完善產(chǎn)業(yè)生態(tài),這其中已經(jīng)有眾多的用戶(hù)和產(chǎn)業(yè)伙伴加入進(jìn)來(lái)。也只有如此,才能更快呈現“智能”這一新生產(chǎn)力的力量。