一、平臺架構
大數據分析平臺的拓撲架構如下圖所示:

其中部署在多個(gè)地方的智能數據中心提供大數據存儲及計算平臺,通過(guò)平臺服務(wù)器提供系統調用功能。門(mén)戶(hù)服務(wù)中心將整合所有的智能數據中心存儲和計算資源,并通過(guò)web應用服務(wù)器和OpenAPI服務(wù)器以web調用和OpenAPI調用的方式提供大數據存儲、管理及挖掘服務(wù)。終端用戶(hù)利用移動(dòng)智能終端通過(guò)互聯(lián)網(wǎng)訪(fǎng)問(wèn)門(mén)戶(hù)服務(wù)中心,使用其提供的大數據存儲、管理及挖掘服務(wù)。
大數據分析平臺的系統架構如下圖所示:

系統包含3個(gè)層次:平臺層為整個(gè)大數據分析平臺提供基礎平臺支持;功能層提供基本的大數據存儲和挖掘功能;服務(wù)層為用戶(hù)提供基于互聯(lián)網(wǎng)的大數據服務(wù)。具體包括:
(1)平臺層:為大數據存儲和挖掘提供大數據存儲和計算平臺,為多區域智能中心的分析架構提供多數據中心調度引擎;
(2)功能層:為大數據存儲和挖掘提供大數據集成、存儲、管理和挖掘功能;
(3)服務(wù)層:基于Web和OpenAPI技術(shù)提供大數據服務(wù)。
二、關(guān)鍵技術(shù)
建設面向服務(wù)的大數據分析平臺,需要研究和開(kāi)發(fā)一系列關(guān)鍵技術(shù),主要包括:

1.平臺層
(1)大數據分布式存儲系統:針對數據不斷增長(cháng)的挑戰,需要研究大規模、非結構化數據的存儲問(wèn)題,突破大數據的存儲、管理和高效訪(fǎng)問(wèn)關(guān)鍵技術(shù),當前需要構建至少PB級存儲能力的大數據平臺才能滿(mǎn)足一般的科研和應用需求。
(2)分布式數據挖掘運行時(shí)系統:針對大數據挖掘算法運行的挑戰,突破Map Reduce技術(shù)的局限,研究有效支持迭代、遞歸、層次及集成機制的海量數據挖掘編程模型和運行時(shí)系統,構建大數據運行時(shí)系統。
(3)智能數據中心聯(lián)合調度技術(shù):針對大數據存儲和挖掘的挑戰,研究多數據中心的智能聯(lián)合調度、負載均衡技術(shù),整合多個(gè)數據中心的存儲和計算資源,構建基于多智能中心的大數據服務(wù)平臺。
2.功能層
(1)高可擴展性大數據挖掘算法:針對大數據挖掘的挑戰,研究基于云計算的分布式大數據處理與挖掘算法,構建高可擴展的大數據處理與挖掘算法庫,實(shí)現TB級數據的建模能力。
(2)大數據安全與隱私保護技術(shù):針對數據挖掘“軟件即服務(wù)”(SaaS)模式的需求,研究開(kāi)發(fā)數據挖掘在云環(huán)境下的隱私保護、數據審計和節點(diǎn)數據挖掘技術(shù),確保大數據挖掘過(guò)程中的數據安全,保證用戶(hù)的隱私不被泄露。
(3)分布式工作流引擎:針對大數據挖掘分布式調度的挑戰,研究基于云計算的分布式工作流調度、負載均衡技術(shù),構建高效分布式工作流執行引擎。
(4)交互式可視化分析技術(shù):針對傳統分析方法交互性和可理解性不足的問(wèn)題,研究啟發(fā)式、人機交互、可視化數據挖掘新技術(shù),實(shí)現大數據挖掘的高度人機交互功能。
3.服務(wù)層
(1)基于Web的大數據挖掘技術(shù):突破傳統的基于單機軟件的數據挖掘技術(shù),創(chuàng )新基于Web的大數據挖掘方法和流程,實(shí)現易于使用的基于Web的大數據挖掘技術(shù),構建基于Web的大數據分析環(huán)境。
(2)基于Open API的大數據挖掘技術(shù):突破傳統的基于軟件的數據挖掘技術(shù),創(chuàng )新基于Open API的大數據挖掘方法,研究大數據挖掘開(kāi)放接口、開(kāi)放流程,構建基于Open API的大數據分析模式。
為廣大用戶(hù)提供大數據處理和分析的服務(wù)功能,大數據分析平臺要突破傳統的基于軟件和高端服務(wù)器的數據挖掘傳統技術(shù)體系,采用基于云計算的大數據存儲和處理架構、分布式數據挖掘算法和基于互聯(lián)網(wǎng)的大數據存儲、處理和挖掘服務(wù)模式。實(shí)現這一目標需要做如下創(chuàng )新:
(1)系統架構創(chuàng )新:突破傳統的基于軟件和高端服務(wù)器的數據挖掘技術(shù)體系,研發(fā)基于互聯(lián)網(wǎng)和云計算的大數據存儲、處理和挖掘的數據中心系統架構,支持多用戶(hù)、多任務(wù)的大數據分析環(huán)境;
(2)服務(wù)模式創(chuàng )新:突破傳統的一次性軟件銷(xiāo)售或軟件租賃的高價(jià)格解決方案,創(chuàng )新基于互聯(lián)網(wǎng)的大數據存儲、處理和分析服務(wù)模式,為用戶(hù)提供按需、廉價(jià)的大數據存儲、處理和分析服務(wù);
(3)使用模式創(chuàng )新:突破傳統的使用單機軟件的方式,創(chuàng )新基于互聯(lián)網(wǎng)的大數據存儲、管理和分析服務(wù),提供多終端(臺式機、筆記本、平板電腦、手機等)、多途徑(瀏覽器訪(fǎng)問(wèn),Open API調用等)的用戶(hù)使用模式。
三、應用
大數據分析平臺所采用的技術(shù)路線(xiàn)和應用模式融合了智能分析技術(shù)、高可擴展計算技術(shù)、非結構化數據處理技術(shù)和軟件即服務(wù)(SaaS)應用模式,符合當前國際大數據產(chǎn)業(yè)的發(fā)展趨勢和產(chǎn)業(yè)化應用要求。一方面,系統通過(guò)互聯(lián)網(wǎng)服務(wù)方式向用戶(hù)提供高可用、高易用和一站式的海量數據分析服務(wù),可有效降低企業(yè)應用門(mén)檻和成本,通過(guò)專(zhuān)業(yè)化服務(wù)外包滿(mǎn)足企業(yè)個(gè)性化需求。另一方面,由于是開(kāi)放架構的系統平臺,商業(yè)用戶(hù)和其他軟件提供商可通過(guò)系統提供的互聯(lián)網(wǎng)服務(wù)開(kāi)發(fā)接口(Open API)開(kāi)發(fā)面向行業(yè)商務(wù)智能應用的解決方案,孵化新型咨詢(xún)公司、軟件公司和信息服務(wù)公司,有助于形成以平臺為核心的大數據分析產(chǎn)業(yè)生態(tài)環(huán)境。