
以數據為中心的算力時(shí)代高效提升算力是關(guān)鍵
“算力缺失是以數據為中心的算力時(shí)代的最大挑戰,要實(shí)現數據的實(shí)時(shí)處理和價(jià)值變現,就需要有強大的算力支撐。”鄭曉龍表示。大數據已經(jīng)無(wú)處不在,元宇宙、基于大數據的病毒傳播跟蹤、基于人工智能的藥物研究、基于用戶(hù)習慣的智能推薦廣告等等,這些大數據的成功應用都需要強大的算力實(shí)現數據快速處理。然而人工智能計算模型的規模正在呈指數級增長(cháng),例如,業(yè)界最新發(fā)布的語(yǔ)言模型Megatron-Turing NLG已經(jīng)實(shí)現支持5300億參數,而在2017年業(yè)界最復雜的模型還僅支持6100萬(wàn)參數,五年內計算壓力增加了10000倍。如何高效提升算力,100%釋放算力的潛能,成為算力時(shí)代首先要解決的問(wèn)題。
數據中心網(wǎng)絡(luò )成為集群算力提升的核心瓶頸
完成一個(gè)AI模型(比如GPT3語(yǔ)言模型)訓練所要求的百億億次浮點(diǎn)計算要求,需要眾多計算服務(wù)器組成一個(gè)集群協(xié)同才能完成。然而所有的AI訓練集群都存在性能天花板。當到達天花板時(shí),即便再增加服務(wù)器節點(diǎn),也不能使集群的性能再進(jìn)一步提升,甚至有可能會(huì )下降。這是因為集群內部存在計算協(xié)同,當網(wǎng)絡(luò )有丟包時(shí),增大了因協(xié)同等待而產(chǎn)生的時(shí)間等開(kāi)銷(xiāo),使算力持續下降。據實(shí)驗統計,0.1%的丟包會(huì )引起算力損失50%。因此,要提升算力,首先要構建一個(gè)0丟包的數據中心網(wǎng)絡(luò )。
華為超融合數據中心網(wǎng)絡(luò )0丟包以太網(wǎng)助力算力100%釋放
華為超融合數據中心網(wǎng)絡(luò )CloudFabric 3.0解決方案基于獨有iLossless智能無(wú)損算法,終結了以太網(wǎng)自誕生以來(lái)四十多年的丟包歷史,以高吞吐、低時(shí)延、大規模的0丟包以太網(wǎng),助力任意場(chǎng)景下多元算力的100%釋放。
01高吞吐:傳統流量調度依賴(lài)手工僵化配置,無(wú)法適應網(wǎng)絡(luò )動(dòng)態(tài)變化。華為智能無(wú)損核心技術(shù)ACC(Automatic ECN)可精準預測網(wǎng)絡(luò )擁塞狀態(tài),實(shí)現在任意擁塞鏈路0丟包的基礎上接近100%吞吐。通過(guò)第三方權威測試機構Tolly表明,超融合數據中心網(wǎng)絡(luò )可助力全閃存IOPS性能提升93%。2021年8月,智能無(wú)損技術(shù)論文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能數據中心網(wǎng)絡(luò )中的ECN動(dòng)態(tài)調優(yōu))入選全球網(wǎng)絡(luò )通信頂級會(huì )議ACM SIGCOMM 2021,得到業(yè)界專(zhuān)家的一致認可,具有世界級技術(shù)影響力。
02低時(shí)延:在HPC高性能計算中,應用時(shí)延=計算操作的步數*每步時(shí)延,因此針對時(shí)延敏感型應用,減少計算操作的步數可以有效降低整體應用時(shí)延。華為智能無(wú)損網(wǎng)算一體技術(shù)基于在網(wǎng)計算(In-network computing)和拓撲感知(Topology-Aware Computing)實(shí)現網(wǎng)絡(luò )和計算協(xié)同,一方面網(wǎng)絡(luò )參與計算信息的匯聚和同步,減少計算信息同步的次數,另一方面盡量確保計算任務(wù)分布在同一個(gè)TOR下,減少通信跳數,進(jìn)一步降低應用時(shí)延。以MPI_allreduce為例,相比傳統網(wǎng)絡(luò )僅做數據轉發(fā)不參與計算過(guò)程,超融合數據中心網(wǎng)絡(luò )可有效降低時(shí)延,提升計算效率27%。
03大規模:數據中心傳統三層CLOS組網(wǎng)架構最大僅支持65k節點(diǎn),不能滿(mǎn)足大型數據中心規模訴求。華為超融合數據中心網(wǎng)絡(luò )基于新一代直連拓撲組網(wǎng)架構和創(chuàng )新分布式自適應路由協(xié)議,不僅滿(mǎn)足算力網(wǎng)絡(luò )0丟包的訴求,更支持270k節點(diǎn)大規模組網(wǎng),組網(wǎng)規模4倍于業(yè)界,可助力構建E級和10E級大型和超大型算力樞紐。
0丟包難題的突破和性能的持續演進(jìn)對于以數據為中心的算力時(shí)代具有重大意義。通過(guò)和金融、制造、超算等客戶(hù)的聯(lián)合測試證明,華為超融合數據中心網(wǎng)絡(luò )CloudFabric 3.0同時(shí)在全閃存、分布式存儲、HPC高性能計算、人工智能計算等場(chǎng)景,都具有極強的性能優(yōu)勢。未來(lái),華為將持續投入智能無(wú)損技術(shù)研究,持續提升無(wú)損網(wǎng)絡(luò )能力,充分釋放算力,使能企業(yè)智能化升級。