• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁 > 資訊 > 國內 >
     首頁 > 資訊 > 國內 >

    華為超融合數(shù)據(jù)中心網(wǎng)絡0丟包以太網(wǎng),助力算力100%釋放

    2022-04-11 09:45:14   作者:   來源:CTI論壇   評論:0  點擊:


      2022年4月7日,在MPLS SD & AI網(wǎng)絡世界大會上,華為加拿大研究所數(shù)據(jù)中心網(wǎng)絡首席研究員鄭曉龍發(fā)表“0丟包以太網(wǎng),助力算力100%釋放”的主題演講,解讀華為超融合數(shù)據(jù)中心網(wǎng)絡CloudFabric 3.0解決方案是如何創(chuàng)新性解決數(shù)據(jù)中心網(wǎng)絡丟包難題,實現(xiàn)低時延、高吞吐、大規(guī)模的0丟包以太網(wǎng),100%釋放算力潛能。
      以數(shù)據(jù)為中心的算力時代高效提升算力是關鍵
      “算力缺失是以數(shù)據(jù)為中心的算力時代的最大挑戰(zhàn),要實現(xiàn)數(shù)據(jù)的實時處理和價值變現(xiàn),就需要有強大的算力支撐。”鄭曉龍表示。大數(shù)據(jù)已經(jīng)無處不在,元宇宙、基于大數(shù)據(jù)的病毒傳播跟蹤、基于人工智能的藥物研究、基于用戶習慣的智能推薦廣告等等,這些大數(shù)據(jù)的成功應用都需要強大的算力實現(xiàn)數(shù)據(jù)快速處理。然而人工智能計算模型的規(guī)模正在呈指數(shù)級增長,例如,業(yè)界最新發(fā)布的語言模型Megatron-Turing NLG已經(jīng)實現(xiàn)支持5300億參數(shù),而在2017年業(yè)界最復雜的模型還僅支持6100萬參數(shù),五年內計算壓力增加了10000倍。如何高效提升算力,100%釋放算力的潛能,成為算力時代首先要解決的問題。
      數(shù)據(jù)中心網(wǎng)絡成為集群算力提升的核心瓶頸
      完成一個AI模型(比如GPT3語言模型)訓練所要求的百億億次浮點計算要求,需要眾多計算服務器組成一個集群協(xié)同才能完成。然而所有的AI訓練集群都存在性能天花板。當?shù)竭_天花板時,即便再增加服務器節(jié)點,也不能使集群的性能再進一步提升,甚至有可能會下降。這是因為集群內部存在計算協(xié)同,當網(wǎng)絡有丟包時,增大了因協(xié)同等待而產生的時間等開銷,使算力持續(xù)下降。據(jù)實驗統(tǒng)計,0.1%的丟包會引起算力損失50%。因此,要提升算力,首先要構建一個0丟包的數(shù)據(jù)中心網(wǎng)絡。
      華為超融合數(shù)據(jù)中心網(wǎng)絡0丟包以太網(wǎng)助力算力100%釋放
      華為超融合數(shù)據(jù)中心網(wǎng)絡CloudFabric 3.0解決方案基于獨有iLossless智能無損算法,終結了以太網(wǎng)自誕生以來四十多年的丟包歷史,以高吞吐、低時延、大規(guī)模的0丟包以太網(wǎng),助力任意場景下多元算力的100%釋放。
      01高吞吐:傳統(tǒng)流量調度依賴手工僵化配置,無法適應網(wǎng)絡動態(tài)變化。華為智能無損核心技術ACC(Automatic ECN)可精準預測網(wǎng)絡擁塞狀態(tài),實現(xiàn)在任意擁塞鏈路0丟包的基礎上接近100%吞吐。通過第三方權威測試機構Tolly表明,超融合數(shù)據(jù)中心網(wǎng)絡可助力全閃存IOPS性能提升93%。2021年8月,智能無損技術論文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能數(shù)據(jù)中心網(wǎng)絡中的ECN動態(tài)調優(yōu))入選全球網(wǎng)絡通信頂級會議ACM SIGCOMM 2021,得到業(yè)界專家的一致認可,具有世界級技術影響力。
      02低時延:在HPC高性能計算中,應用時延=計算操作的步數(shù)*每步時延,因此針對時延敏感型應用,減少計算操作的步數(shù)可以有效降低整體應用時延。華為智能無損網(wǎng)算一體技術基于在網(wǎng)計算(In-network computing)和拓撲感知(Topology-Aware Computing)實現(xiàn)網(wǎng)絡和計算協(xié)同,一方面網(wǎng)絡參與計算信息的匯聚和同步,減少計算信息同步的次數(shù),另一方面盡量確保計算任務分布在同一個TOR下,減少通信跳數(shù),進一步降低應用時延。以MPI_allreduce為例,相比傳統(tǒng)網(wǎng)絡僅做數(shù)據(jù)轉發(fā)不參與計算過程,超融合數(shù)據(jù)中心網(wǎng)絡可有效降低時延,提升計算效率27%。
      03大規(guī)模:數(shù)據(jù)中心傳統(tǒng)三層CLOS組網(wǎng)架構最大僅支持65k節(jié)點,不能滿足大型數(shù)據(jù)中心規(guī)模訴求。華為超融合數(shù)據(jù)中心網(wǎng)絡基于新一代直連拓撲組網(wǎng)架構和創(chuàng)新分布式自適應路由協(xié)議,不僅滿足算力網(wǎng)絡0丟包的訴求,更支持270k節(jié)點大規(guī)模組網(wǎng),組網(wǎng)規(guī)模4倍于業(yè)界,可助力構建E級和10E級大型和超大型算力樞紐。
      0丟包難題的突破和性能的持續(xù)演進對于以數(shù)據(jù)為中心的算力時代具有重大意義。通過和金融、制造、超算等客戶的聯(lián)合測試證明,華為超融合數(shù)據(jù)中心網(wǎng)絡CloudFabric 3.0同時在全閃存、分布式存儲、HPC高性能計算、人工智能計算等場景,都具有極強的性能優(yōu)勢。未來,華為將持續(xù)投入智能無損技術研究,持續(xù)提升無損網(wǎng)絡能力,充分釋放算力,使能企業(yè)智能化升級。
    【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專題

    CTI論壇會員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 曲水县| 龙门县| 泸西县| 平江县| 兴宁市| 和龙市| 大丰市| 台州市| 北流市| 农安县| 特克斯县| 兴仁县| 禹城市| 特克斯县| 九江市| 穆棱市| 石河子市| 福泉市| 新密市| 南华县| 洪洞县| 防城港市| 织金县| 延川县| 澄江县| 德格县| 独山县| 安溪县| 蛟河市| 会东县| 寿阳县| 甘泉县| 珲春市| 靖西县| 漾濞| 神农架林区| 新和县| 百色市| 芷江| 远安县| 台中县| http://444 http://444 http://444 http://444 http://444 http://444