• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    華為超融合數據中心網(wǎng)絡(luò )0丟包以太網(wǎng),助力算力100%釋放

    2022-04-11 09:45:14   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      2022年4月7日,在MPLS SD & AI網(wǎng)絡(luò )世界大會(huì )上,華為加拿大研究所數據中心網(wǎng)絡(luò )首席研究員鄭曉龍發(fā)表“0丟包以太網(wǎng),助力算力100%釋放”的主題演講,解讀華為超融合數據中心網(wǎng)絡(luò )CloudFabric 3.0解決方案是如何創(chuàng )新性解決數據中心網(wǎng)絡(luò )丟包難題,實(shí)現低時(shí)延、高吞吐、大規模的0丟包以太網(wǎng),100%釋放算力潛能。
      以數據為中心的算力時(shí)代高效提升算力是關(guān)鍵
      “算力缺失是以數據為中心的算力時(shí)代的最大挑戰,要實(shí)現數據的實(shí)時(shí)處理和價(jià)值變現,就需要有強大的算力支撐。”鄭曉龍表示。大數據已經(jīng)無(wú)處不在,元宇宙、基于大數據的病毒傳播跟蹤、基于人工智能的藥物研究、基于用戶(hù)習慣的智能推薦廣告等等,這些大數據的成功應用都需要強大的算力實(shí)現數據快速處理。然而人工智能計算模型的規模正在呈指數級增長(cháng),例如,業(yè)界最新發(fā)布的語(yǔ)言模型Megatron-Turing NLG已經(jīng)實(shí)現支持5300億參數,而在2017年業(yè)界最復雜的模型還僅支持6100萬(wàn)參數,五年內計算壓力增加了10000倍。如何高效提升算力,100%釋放算力的潛能,成為算力時(shí)代首先要解決的問(wèn)題。
      數據中心網(wǎng)絡(luò )成為集群算力提升的核心瓶頸
      完成一個(gè)AI模型(比如GPT3語(yǔ)言模型)訓練所要求的百億億次浮點(diǎn)計算要求,需要眾多計算服務(wù)器組成一個(gè)集群協(xié)同才能完成。然而所有的AI訓練集群都存在性能天花板。當到達天花板時(shí),即便再增加服務(wù)器節點(diǎn),也不能使集群的性能再進(jìn)一步提升,甚至有可能會(huì )下降。這是因為集群內部存在計算協(xié)同,當網(wǎng)絡(luò )有丟包時(shí),增大了因協(xié)同等待而產(chǎn)生的時(shí)間等開(kāi)銷(xiāo),使算力持續下降。據實(shí)驗統計,0.1%的丟包會(huì )引起算力損失50%。因此,要提升算力,首先要構建一個(gè)0丟包的數據中心網(wǎng)絡(luò )。
      華為超融合數據中心網(wǎng)絡(luò )0丟包以太網(wǎng)助力算力100%釋放
      華為超融合數據中心網(wǎng)絡(luò )CloudFabric 3.0解決方案基于獨有iLossless智能無(wú)損算法,終結了以太網(wǎng)自誕生以來(lái)四十多年的丟包歷史,以高吞吐、低時(shí)延、大規模的0丟包以太網(wǎng),助力任意場(chǎng)景下多元算力的100%釋放。
      01高吞吐:傳統流量調度依賴(lài)手工僵化配置,無(wú)法適應網(wǎng)絡(luò )動(dòng)態(tài)變化。華為智能無(wú)損核心技術(shù)ACC(Automatic ECN)可精準預測網(wǎng)絡(luò )擁塞狀態(tài),實(shí)現在任意擁塞鏈路0丟包的基礎上接近100%吞吐。通過(guò)第三方權威測試機構Tolly表明,超融合數據中心網(wǎng)絡(luò )可助力全閃存IOPS性能提升93%。2021年8月,智能無(wú)損技術(shù)論文《ACC: Automatic ECN Tuning for High-Speed Datacenter Networks》(高性能數據中心網(wǎng)絡(luò )中的ECN動(dòng)態(tài)調優(yōu))入選全球網(wǎng)絡(luò )通信頂級會(huì )議ACM SIGCOMM 2021,得到業(yè)界專(zhuān)家的一致認可,具有世界級技術(shù)影響力。
      02低時(shí)延:在HPC高性能計算中,應用時(shí)延=計算操作的步數*每步時(shí)延,因此針對時(shí)延敏感型應用,減少計算操作的步數可以有效降低整體應用時(shí)延。華為智能無(wú)損網(wǎng)算一體技術(shù)基于在網(wǎng)計算(In-network computing)和拓撲感知(Topology-Aware Computing)實(shí)現網(wǎng)絡(luò )和計算協(xié)同,一方面網(wǎng)絡(luò )參與計算信息的匯聚和同步,減少計算信息同步的次數,另一方面盡量確保計算任務(wù)分布在同一個(gè)TOR下,減少通信跳數,進(jìn)一步降低應用時(shí)延。以MPI_allreduce為例,相比傳統網(wǎng)絡(luò )僅做數據轉發(fā)不參與計算過(guò)程,超融合數據中心網(wǎng)絡(luò )可有效降低時(shí)延,提升計算效率27%。
      03大規模:數據中心傳統三層CLOS組網(wǎng)架構最大僅支持65k節點(diǎn),不能滿(mǎn)足大型數據中心規模訴求。華為超融合數據中心網(wǎng)絡(luò )基于新一代直連拓撲組網(wǎng)架構和創(chuàng )新分布式自適應路由協(xié)議,不僅滿(mǎn)足算力網(wǎng)絡(luò )0丟包的訴求,更支持270k節點(diǎn)大規模組網(wǎng),組網(wǎng)規模4倍于業(yè)界,可助力構建E級和10E級大型和超大型算力樞紐。
      0丟包難題的突破和性能的持續演進(jìn)對于以數據為中心的算力時(shí)代具有重大意義。通過(guò)和金融、制造、超算等客戶(hù)的聯(lián)合測試證明,華為超融合數據中心網(wǎng)絡(luò )CloudFabric 3.0同時(shí)在全閃存、分布式存儲、HPC高性能計算、人工智能計算等場(chǎng)景,都具有極強的性能優(yōu)勢。未來(lái),華為將持續投入智能無(wú)損技術(shù)研究,持續提升無(wú)損網(wǎng)絡(luò )能力,充分釋放算力,使能企業(yè)智能化升級。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 阜宁县| 龙江县| 吴旗县| 南华县| 云霄县| 松江区| 明水县| 吴旗县| 郑州市| 镇宁| 六枝特区| 长沙市| 和林格尔县| 泸定县| 乐业县| 瑞金市| 海晏县| 开原市| 肇州县| 正镶白旗| 张家港市| 南昌市| 安义县| 法库县| 上杭县| 常州市| 珲春市| 淮北市| 襄垣县| 客服| 大关县| 额敏县| 米易县| 揭东县| 莱阳市| 旌德县| 中西区| 文登市| 乐清市| 华池县| 商河县| http://444 http://444 http://444 http://444 http://444 http://444