• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當(dāng)前的位置是:  首頁 > 技術(shù) > 技術(shù)動態(tài) >
     首頁 > 技術(shù) > 技術(shù)動態(tài) > 騰訊云首次完整披露自研星脈高性能計算網(wǎng)絡(luò) 具備業(yè)界最高的3.2T通信帶寬

    騰訊云首次完整披露自研星脈高性能計算網(wǎng)絡(luò) 具備業(yè)界最高的3.2T通信帶寬

    2023-06-26 22:47:31   作者:   來源:C114通信網(wǎng)   評論:0  點擊:


      AIGC的爆發(fā)除了帶來算力上的挑戰(zhàn),對網(wǎng)絡(luò)的要求也達(dá)到了前所未有的高度。

      6月26日,騰訊云首次對外完整披露自研星脈高性能計算網(wǎng)絡(luò):星脈網(wǎng)絡(luò)具備業(yè)界最高的3.2T通信帶寬,能提升40%的GPU利用率,節(jié)省30%~60%的模型訓(xùn)練成本,為AI大模型帶來10倍通信性能提升。基于騰訊云新一代算力集群HCC,可支持10萬卡的超大計算規(guī)模。

      騰訊云副總裁王亞晨表示:“星脈網(wǎng)絡(luò)是為大模型而生。它所提供的大帶寬、高利用率以及零丟包的高性能網(wǎng)絡(luò)服務(wù),將助力算力瓶頸的突破,進一步釋放AI潛能,全面提升企業(yè)大模型的訓(xùn)練效率,在云上加速大模型技術(shù)的迭代升級和落地應(yīng)用。”

      構(gòu)建大模型專屬高性能網(wǎng)絡(luò),提升40%GPU利用率

      AIGC的火爆帶來AI大模型參數(shù)量從億級到萬億級的飆升。為支撐海量數(shù)據(jù)的大規(guī)模訓(xùn)練,大量服務(wù)器通過高速網(wǎng)絡(luò)組成算力集群,互聯(lián)互通,共同完成訓(xùn)練任務(wù)。

      大集群不等于大算力,相反,GPU集群越大,產(chǎn)生的額外通信損耗越多。大帶寬、高利用率、信息無損,是AI大模型時代網(wǎng)絡(luò)面臨的核心挑戰(zhàn)。

      千億、萬億參數(shù)規(guī)模的大模型,訓(xùn)練過程中通信占比最大可達(dá)50%,傳統(tǒng)低速網(wǎng)絡(luò)的帶寬遠(yuǎn)遠(yuǎn)無法支撐。同時,傳統(tǒng)網(wǎng)絡(luò)協(xié)議容易導(dǎo)致網(wǎng)絡(luò)擁塞、高延時和丟包,而僅0.1%的網(wǎng)絡(luò)丟包就可能導(dǎo)致50%的算力損失,最終造成算力資源的嚴(yán)重浪費。

      基于全面自研能力,騰訊云在交換機、通信協(xié)議、通信庫以及運營系統(tǒng)等方面,進行了軟硬一體的升級和創(chuàng)新,率先推出業(yè)界領(lǐng)先的大模型專屬高性能網(wǎng)絡(luò)——星脈網(wǎng)絡(luò)。

      在硬件方面,星脈網(wǎng)絡(luò)基于騰訊的網(wǎng)絡(luò)研發(fā)平臺,采用全自研設(shè)備構(gòu)建互聯(lián)底座,實現(xiàn)自動化部署和配置。

      在軟件方面,騰訊云自研的TiTa網(wǎng)絡(luò)協(xié)議,采用先進的擁塞控制和管理技術(shù),能夠?qū)崟r監(jiān)測并調(diào)整網(wǎng)絡(luò)擁塞,滿足大量服務(wù)器節(jié)點之間的通信需求,確保數(shù)據(jù)交換流暢、延時低,實現(xiàn)高負(fù)載下的零丟包,使集群通信效率達(dá)90%以上。

      此外,騰訊云還為星脈網(wǎng)絡(luò)設(shè)計了高性能集合通信庫TCCL,融入定制化解決方案,使系統(tǒng)實現(xiàn)了微秒級感知網(wǎng)絡(luò)質(zhì)量。結(jié)合動態(tài)調(diào)度機制合理分配通信通道,可以避免因網(wǎng)絡(luò)問題導(dǎo)致的訓(xùn)練中斷等問題,讓通信時延降低40%。

      網(wǎng)絡(luò)的可用性,也決定了整個集群的計算穩(wěn)定性。為確保星脈網(wǎng)絡(luò)的高可用,騰訊云自研了端到端的全棧網(wǎng)絡(luò)運營系統(tǒng),通過端網(wǎng)立體化監(jiān)控與智能定位系統(tǒng),將端網(wǎng)問題自動定界分析,讓整體故障的排查時間由天級降低至分鐘級。同時,大模型訓(xùn)練系統(tǒng)的整體部署時間從19天縮減至4.5天,保證基礎(chǔ)配置100%準(zhǔn)確。

      歷經(jīng)三代技術(shù)演進,軟硬一體深耕自研

      星脈網(wǎng)絡(luò)全方位的升級背后,是騰訊數(shù)據(jù)中心網(wǎng)絡(luò)歷經(jīng)三代技術(shù)演進的成果。

      

     

      在騰訊發(fā)展初期,數(shù)據(jù)中心網(wǎng)絡(luò)流量主要由用戶訪問數(shù)據(jù)中心服務(wù)器的南北向流量構(gòu)成,網(wǎng)絡(luò)架構(gòu)以接入、匯聚、出口為主。這一階段主要使用了商用網(wǎng)絡(luò)設(shè)備,搭建標(biāo)準(zhǔn)化數(shù)據(jù)中心網(wǎng)絡(luò),支撐QQ在線人數(shù)增長超過1億,服務(wù)器規(guī)模增長超10萬。

      隨著大數(shù)據(jù)和云計算的興起,服務(wù)器之間的東西向流量逐漸增多,云租戶對網(wǎng)絡(luò)產(chǎn)生了虛擬化和隔離的要求。數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)逐漸演變?yōu)橥瑫r承載南北向和東西向流量的云網(wǎng)絡(luò)架構(gòu),騰訊云構(gòu)建了全自研網(wǎng)絡(luò)設(shè)備與管理系統(tǒng),打造超大規(guī)模數(shù)據(jù)中心網(wǎng)絡(luò),服務(wù)器規(guī)模近200萬臺。

      如今隨著AI大模型的出現(xiàn),騰訊云在國內(nèi)率先推出高性能計算網(wǎng)絡(luò),采用東西向、南北向流量的分離架構(gòu)。構(gòu)建了獨立的超大帶寬、符合AI訓(xùn)練流量特征的網(wǎng)絡(luò)架構(gòu),并配合自研軟硬件設(shè)施,實現(xiàn)整套系統(tǒng)的自主可控,滿足超強算力對網(wǎng)絡(luò)性能的新需求。

      日前,騰訊云發(fā)布的新一代HCC高性能計算集群,正是基于星脈高性能網(wǎng)絡(luò)打造,可以實現(xiàn)3.2T超高互聯(lián)帶寬,算力性能較前代提升3倍,為AI大模型訓(xùn)練構(gòu)筑可靠的高性能網(wǎng)絡(luò)底座。

      未來,騰訊云還將持續(xù)投入基礎(chǔ)技術(shù)的研發(fā),為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供有力的技術(shù)支撐。

    【免責(zé)聲明】本文僅代表作者本人觀點,與CTI論壇無關(guān)。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔(dān)全部責(zé)任。

    相關(guān)閱讀:

    專題

    CTI論壇會員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 宜州市| 孝昌县| 忻州市| 巢湖市| 犍为县| 宜阳县| 赞皇县| 邳州市| 将乐县| 新乡市| 张家界市| 明溪县| 溧水县| 洪泽县| 监利县| 嘉祥县| 衡东县| 长兴县| 广灵县| 富顺县| 德阳市| 大港区| 尼木县| 绍兴县| 永州市| 鸡泽县| 荔浦县| 河曲县| 辽阳县| 襄樊市| 大新县| 正蓝旗| 常德市| 南川市| 大港区| 河曲县| 通化县| 本溪市| 星座| 木兰县| 驻马店市| http://444 http://444 http://444 http://444 http://444 http://444