HPC與AI、大數據走向融合,HPDA應運而生
5G、云、AI等新ICT技術(shù)的快速發(fā)展使視頻、圖片等數據呈指數級增長(cháng),從數據增長(cháng)軌跡中可以預測到,未來(lái)幾年數據量將達到百ZB的水平,從而促使HPC行業(yè)從計算驅動(dòng)演進(jìn)為數據驅動(dòng)。回首過(guò)往15年以來(lái)HPC存儲增長(cháng)的多種驅動(dòng)因素,可以發(fā)現它與AI、大數據的飛速發(fā)展密不可分,進(jìn)而催生出以數據分析生態(tài)為主的HPC解決方案,并在多個(gè)至關(guān)重要的科學(xué)領(lǐng)域中得到應用,如計算科學(xué)建模和數據分析。計算科學(xué)建模和數據分析兩個(gè)生態(tài)在解決方案和技術(shù)上的融合是加速科學(xué)發(fā)現的關(guān)鍵因素。在此背景下,高性能數據分析(HPDA)應運而生并迅速發(fā)展。
從計算到數據,是HPC市場(chǎng)發(fā)展的必然。從傳統HPC建模/仿真應用向新的HPDA/AI/ML/DL應用演進(jìn),其主要特點(diǎn)是從計算密集型負載向數據密集型負載轉變,有助于研究人員、工程師和業(yè)務(wù)數據分析師從最佳性能的HPC基礎設施中,更快地獲取研究結果并對其進(jìn)行分析總結。
HPDA/AI的快速發(fā)展推動(dòng)著(zhù)傳統HPC建模/仿真應用不斷轉型升級,然而HPDA/AI/ML/DL技術(shù)所產(chǎn)生的數據越來(lái)越多,給現有HPC存儲生態(tài)系統帶來(lái)巨大壓力,要解決和優(yōu)化這兩種類(lèi)型的負載,就要高度重視并大力建設HPC存儲基礎設施。
科技強國政策的背景下,我國開(kāi)始大力發(fā)展和推進(jìn)HPC事業(yè),建立隸屬于科技部的國 國家超級計算濟南中心發(fā)展勢頭迅猛,構建引領(lǐng)全球科技發(fā)展的“最強大腦”家超級計算中心,用于發(fā)展高性能計算相關(guān)產(chǎn)業(yè)與應用。截至2021年,科技部批準建立了國家超級計算濟南中心、國家超級計算天津中心、國家超級計算深圳中心等八所國家超級計算中心。
目前,濟南超算正在主導山東省“超級計算大科學(xué)工程”,研制建設全球算力領(lǐng)先的新一代超級計算機,通過(guò)根植山東、覆蓋全國、輻射全球的超算互聯(lián)網(wǎng)建設,構建“E級超算、人工智能、大數據、工業(yè)互聯(lián)網(wǎng)”等大科學(xué)裝置集群,形成國際一流的“超算大腦”,力爭成為推動(dòng)國家基礎科學(xué)進(jìn)步和重大技術(shù)攻關(guān),助力山東省走在“新動(dòng)能”的最前沿。
面對挑戰,濟南超算積極追求HPC存儲架構轉型
人工智能、大數據等新型應用進(jìn)入到超算科研領(lǐng)域,推動(dòng)濟南超算改革創(chuàng )新發(fā)展,由單一計算服務(wù)向計算加多元數據處理服務(wù)轉變。
濟南超算在創(chuàng )新改革中,正在面臨如下變化與挑戰:
- 首先,數據量的激增帶來(lái)傳輸與存儲成本的挑戰。數據量的激增主要有兩個(gè)原因:一是參與計算的原始數據不僅多且雜;二是數據多環(huán)節處理計算帶來(lái)數據的過(guò)度膨脹。伴隨著(zhù)人工智能和大數據等新興產(chǎn)業(yè)的爆炸式增長(cháng),超算需要處理更多數據,既有結構化數據又有非結構化數據,而在線(xiàn)傳輸這些數據可能需耗費數周,拷貝TB-PB級數據時(shí)更是要耗費數月,這些都是超算中心在轉型過(guò)程中無(wú)法規避的難題。
- 其次,存儲資源搶占導致整體計算效率不高。當前多數超算場(chǎng)景為多任務(wù)、多并發(fā)計算,一些作業(yè)對帶寬要求很高,另一些對IOPS要求高,多任務(wù)并發(fā)造成存儲資源搶占,則會(huì )導致整體計算效率被拉低。例如生命科學(xué)作業(yè)等大帶寬類(lèi)作業(yè)增多時(shí),整個(gè)計算效率會(huì )變得非常緩慢,從而影響整個(gè)超算中心的作業(yè)效率。
- 此外,濟南超算業(yè)務(wù)在與傳統數據中心類(lèi)業(yè)務(wù)融合過(guò)程中,也面臨著(zhù)數據管理及數據孤島的挑戰。在提供如人工計算、大數據、虛擬化和災備等多元化服務(wù)時(shí),面對萬(wàn)級用戶(hù)群體及各種數據形式的讀寫(xiě)(如文件存儲、虛擬化的塊存儲、AI的對象存儲、大數據的HDFS存儲等),都會(huì )增加管理難度,且數據間易呈現割裂的孤島狀態(tài)。如何讓數據流動(dòng)起來(lái)進(jìn)而促進(jìn)跨域創(chuàng )新,是濟南超算急需解決的問(wèn)題。
濟南超算攜手華為OceanStor全閃存,打造標桿級新型超算中心
華為OceanStor全閃存超高性能、超高吞吐量滿(mǎn)足多平臺、多類(lèi)型作業(yè)需求,為濟南超算發(fā)展降本增效。為滿(mǎn)足濟南超算的HPC平臺、AI平臺及云平臺各集群間存儲需求的差異性,平臺規劃建設存儲系統容量220PB,涵蓋高性能存儲系統、對象存儲、塊存儲、NAS存儲,可滿(mǎn)足各類(lèi)應用對存儲的需求。其中高性能文件存儲系統配套的全閃存儲系統容量15PiB。華為OceanStor全閃存憑借TBps級帶寬,千萬(wàn)級IOPS超算主存系統,完全能滿(mǎn)足超算綜合場(chǎng)景高帶寬及高IOPS等性能需求,提升業(yè)務(wù)效率,加速業(yè)務(wù)創(chuàng )新,整體帶寬超1000GB/s,有效解決資源搶占拉低整體作業(yè)效率的問(wèn)題。同時(shí),采用數據圖像壓縮算法,進(jìn)一步提升了存儲空間的利用率,大大降低了海量數據的存儲成本,為超算中心的持續發(fā)展降本增效。
華為OceanStor全閃存綠色節能,科技助力“碳達峰”。無(wú)論是基于國家政策的導向,還是超算中心降本增效的考量,綠色節能已逐步落地到生產(chǎn)和經(jīng)營(yíng)的方方面面。在數據中心層面,采用華為OceanStor全閃存是理想的解決方案,可以極大縮減數據中心空間和能耗的開(kāi)支,由此帶來(lái)的高資源利用率和高成本效益是驅動(dòng)全閃存系統出貨量增長(cháng)的重要因素。
華為和客戶(hù)聯(lián)創(chuàng )主存、對象存儲等系統間數據流動(dòng)方案,解決客戶(hù)數據存儲難題。華為OceanStor全閃存已經(jīng)充分適配并能高效支撐起超算業(yè)務(wù),面向未來(lái)的合作層面,濟南超算與華為成立了存儲創(chuàng )新中心,在數據流動(dòng)、數據服務(wù)、和數據安全等方面展開(kāi)深入研究并孵化產(chǎn)業(yè);面向超算領(lǐng)域層面,濟南超算與華為提供了技術(shù)創(chuàng )新方向和解決方案,共同打造全球領(lǐng)先的智能數據與存儲的示范點(diǎn)、產(chǎn)業(yè)基地。依托華為OceanStor存儲存算占比1:1.5的數據流動(dòng)方案,濟南超算將具備國內HPC領(lǐng)域容量最大、性能最高的全閃存陣列集群,可以解決濟南超算當前面臨的塊、對象、文件互訪(fǎng)難題,打通數據流通,促進(jìn)數據跨域創(chuàng )新,為濟南超算未來(lái)創(chuàng )新業(yè)務(wù)探索持續助力。華為提供API接口并聯(lián)合濟南超算共同定制開(kāi)發(fā),實(shí)現基于數據流動(dòng)任務(wù)和策略,實(shí)現數據流動(dòng)的服務(wù)化和可視化。華為與濟南超算共同基于客戶(hù)數據屬性標簽化進(jìn)行定制開(kāi)發(fā),實(shí)現數據流動(dòng)的安全管理。

業(yè)內人士認為,華為與濟南超算合作是一個(gè)典型的標桿案例,濟南超算之所以選擇華為OceanStor全閃存,與其高效、節能的端到端超算存儲解決方案和技術(shù)創(chuàng )新能力密不可分。華為OceanStor全閃存具備敏捷性、高效率、可用性、安全性、面向云業(yè)務(wù)的適配性等特點(diǎn),同時(shí)基于業(yè)界領(lǐng)先的技術(shù)和架構,與我國全面推動(dòng)的“新基建”戰略高度契合。此外,華為OceanStor全閃存高密度、低功耗的特點(diǎn)可以顯著(zhù)降低超算中心PUE,賦能濟南超算完成HPC存儲架構轉型升級,加速產(chǎn)業(yè)生態(tài)創(chuàng )新發(fā)展,以“超算速度”助推濟南超算成為全球超算中心的領(lǐng)跑者。