如今,AI和云原生類(lèi)應用已經(jīng)成為企業(yè)IT基礎設施的重要工作負載,不過(guò)這也給在企業(yè)數據中心和混合云中支持這些先進(jìn)應用的IT團隊帶來(lái)了挑戰,于是數據中心現代化便成為企業(yè)的重要議題。
在近日舉行的VMworld 2021上,NVIDIA和VMware公布了諸多聯(lián)合創(chuàng )新舉措,幫助企業(yè)將現有IT基礎設施進(jìn)行現代化,更好地承載人工智能和云原生等應用。
云原生環(huán)境中的AI
在VMworld 2021上,VMware發(fā)布了最新版本的VMware Tanzu for vSphere,其使IT團隊能夠在其現有的IT基礎設施上運行容器化Kubernetes工作負載。

結合NVIDIA AI Enterprise和VMware vSphere with Tanzu,企業(yè)能夠在VMware環(huán)境中的Kubernetes容器上運行AI工作負載,充分利用方便IT部門(mén)管理的基礎設施。該軟件可在服務(wù)器廠(chǎng)商商所提供的主流NVIDIA認證系統上運行,從而提供了一個(gè)完整的、專(zhuān)為AI優(yōu)化的集成式軟件堆棧和硬件堆棧。
我們知道NVIDIA AI Enterprise于2021年8月上市,是一套經(jīng)NVIDIA優(yōu)化、認證和支持的端到端的云原生AI和數據分析軟件套件,包括PyTorch、TensorFlow、NVIDIA TensorRT、NVIDIA Triton推理服務(wù)器和NVIDIA RAPIDS。這些工具使AI開(kāi)發(fā)者和數據科學(xué)家能夠輕松獲得構建對話(huà)式AI、計算機視覺(jué)和推薦系統等一系列企業(yè)AI應用所需的工具和框架。
作為NVIDIA和VMware聯(lián)合開(kāi)發(fā)AI-ready企業(yè)平臺,NVIDIA AI Enterprise將全球領(lǐng)先的AI堆棧和經(jīng)過(guò)優(yōu)化的軟件帶入企業(yè)現有使用的IT基礎設施中,幫助企業(yè)縮短AI開(kāi)發(fā)周期,快速部署、管理和擴展AI工作負載,更快上線(xiàn)應用。
更為重要的是NVIDIA AI Enterprise的云原生架構提供接近裸機水平的AI性能,包括在虛擬化環(huán)境中。在最新的MLPerf基準測試中,戴爾科技EMC PowerEdge R7525服務(wù)器用三個(gè)NVIDIA A100 Tensor Core GPU運行NVIDIA AI Enterprise和VMware vSphere,取得了94.4%至100%的等效裸機性能。
目前,NVIDIA AI Enterprise通過(guò)全球NVIDIA渠道合作伙伴提供,并得到了包括源訊、戴爾科技、技嘉、新華三、慧與、浪潮、聯(lián)想和超微等多家提供NVIDIA認證系統的服務(wù)器制造商的支持。
為支持需要即時(shí)訪(fǎng)問(wèn)AI基礎設施的客戶(hù),NVIDIA AI Enterprise預計也將在不久后加入數字基礎設施領(lǐng)導者Equinix提供的NVIDIA AI LaunchPad計劃。
DPU加速數據中心現代化
除了NVIDIA AI Enterprise,NVIDIA擴大與聯(lián)想的合作,提供對VMware Monterey項目的搶先體驗計劃支持。通過(guò)搶先體驗計劃,企業(yè)可及早探索應用支持VMware的預配置集群,通過(guò)聯(lián)想ThinkAgile VX和ThinkSystem Ready-Nodes等配備了BlueField的服務(wù)器實(shí)現加速。

目前,企業(yè)正在對現有應用進(jìn)行現代化升級,并部署新應用,傳統IT架構不斷擴展,新的挑戰隨之而來(lái),比如服務(wù)器CPU上消耗的周期數量越來(lái)越多,進(jìn)而影響性能。
為了解決這些問(wèn)題,企業(yè)采用帶有GPU、DPU等硬件加速器的專(zhuān)用系統,并通過(guò)減輕負載來(lái)滿(mǎn)足新應用的性能和安全需求。不過(guò)加速器可以提高性能,但也會(huì )導致團隊孤立、技能專(zhuān)業(yè)化、總體擁有成本增加,并且帶來(lái)了更大的復雜性和安全需求。
VMware Monterey項目旨在通過(guò)包括NVIDIA BlueField DPU在內的最新網(wǎng)絡(luò )技術(shù),提高企業(yè)數據中心的性能、可管理性和安全性。
現代超大規模云技術(shù)推動(dòng)數據中心利用一種專(zhuān)門(mén)針對數據中心基礎架構軟件而設計的新型處理器,來(lái)卸載和加速由虛擬化、網(wǎng)絡(luò )、存儲、安全和其它云原生AI服務(wù)產(chǎn)生的巨大計算負荷。于是NVIDIA于2020年率先提出DPU(數據處理器)的概念,并推出了BlueField系列DPU產(chǎn)品。
最新的NVIDIA BlueField-3 DPU是首款為AI和加速計算而設計的DPU,針對多租戶(hù)、云原生環(huán)境進(jìn)行了優(yōu)化,提供數據中心級的軟件定義和硬件加速的網(wǎng)絡(luò )、存儲、安全和管理等服務(wù),通過(guò)對數據中心應用的卸載、加速和隔離,實(shí)現各種規模的應用交付,打造安全、高性能的現代企業(yè)數據中心。
通過(guò)BlueField-3 DPU的加速引擎,有些場(chǎng)景下的性能可相當于多達300個(gè)通用CPU核的性能,從而釋放寶貴的CPU資源來(lái)運行關(guān)鍵業(yè)務(wù)應用。
BlueField-3 DPU可以從業(yè)務(wù)應用中將數據中心的基礎設施服務(wù)卸載和隔離出來(lái),實(shí)現了由傳統基礎設施到現代基于 “零信任” 環(huán)境的轉型,可對數據中心的每個(gè)用戶(hù)進(jìn)行身份認證,保障了企業(yè)從云到核心數據中心,再到邊緣的安全性,同時(shí)在效率和性能上有了更大的提升。
作為業(yè)內首款400G以太網(wǎng)和NDR InfiniBand DPU,BlueField-3具有出色的網(wǎng)絡(luò )性能。相比上一代產(chǎn)品,它具有5倍加速計算能力、4倍的加密速度,并且將CPU核升級到16個(gè)Arm A78 CPU核。BlueField-3也是首款支持第五代PCIe總線(xiàn)并提供數據中心時(shí)間同步加速的DPU。
結語(yǔ)
不管是AI Enterprise還是DPU,NVIDIA在軟件和硬件層面不斷創(chuàng )新實(shí)現AI民主化,而這離不開(kāi)生態(tài)圈的構建。此次VMworld 2021上NVIDIA和VMware的聯(lián)合成果發(fā)布,將會(huì )加速人工智能在現代數據中心中的落地,推動(dòng)企業(yè)的業(yè)務(wù)轉型。