• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    VMware Bitfusion 工作原理

    2020-08-13 11:08:28   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      Bitfusion 要解決的是以下問(wèn)題:
      有些團隊在利用機器學(xué)習進(jìn)行研究時(shí)沒(méi)有 GPU 可以用來(lái)加速學(xué)習速度;
      而另一些團隊已經(jīng)擁有了 GPU,但是他們沒(méi)有完全利用 GPU 的處理能力,很多 GPU 資源在白白閑置。
      Bitfusion 把 GPU 資源集中起來(lái),組成 GPU 資源池,然后共享給大家使用,這個(gè)方案分為兩部分:
    • Bitfusion 服務(wù)器:把 GPU 安裝在 vSphere 服務(wù)器上 (要求 vSphere 7 以上版本),然后在上面運行 Bitfusion Server (以 OVA 格式提供的 virtual appliance),Bitfusion Server 可以把物理 GPU 資源虛擬化,共享給多個(gè)用戶(hù)使用。
    • Bitfusion 客戶(hù)機:Bitfusion Client 是運行在其他 vSphere 服務(wù)器上的 Linux 虛機 (要求 vSphere 6.7 以上版本), 機器學(xué)習 ML (Machine Learning) 工作負載運行在這些虛擬機上,Bitfusion 會(huì )把它們對于GPU 的服務(wù)請求通過(guò)網(wǎng)絡(luò )傳輸給 Bitfusion Server,計算完成后再返回結果。對于 ML 工作負載來(lái)說(shuō),遠程 GPU 是完全透明的,它就像是在使用本地的 GPU 硬件。
      Bitfusion 共享 GPU 方案架構
      Bitfusion 把機器學(xué)習對于本地 GPU 的訪(fǎng)問(wèn)轉換成遠程 GPU 訪(fǎng)問(wèn),它是怎么識別這些 GPU 調用的?它對機器學(xué)習應用有什么要求嗎?Bitfusion 對于機器學(xué)習的基本要求就是必須使用 CUDA 架構,只有機器學(xué)習應用和 GPU 都使用 CUDA 架構才能被 Bitfusion 支持。
      Bitfusion工作原理
      CUDA 的全稱(chēng)是 Compute Unified Device Architecture,它是由 NVIDIA 提供的通用并行計算架構,該架構使開(kāi)發(fā)人員能夠快速地開(kāi)發(fā)利用 GPU 的軟件,通過(guò)充分利用 GPU 所提供的上千個(gè)處理單元來(lái)快速解決復雜計算問(wèn)題。NVIDIA 為開(kāi)發(fā)人員提供了 CUDA 工具包,其中包括在 GPU 加速庫、編譯器、開(kāi)發(fā)工具和 CUDA 運行時(shí)。
      目前主流的 GPU 廠(chǎng)商有 NVIDIA、AMD 和 Intel,NVIDIA 當然支持自家的 CUDA,Intel 也提供了對于 CUDA 的支持;AMD 則另外搞了一套標準 HIP (Heterogeneous Computing Interface for Portability,可移植異構計算接口),提供了一個(gè)工具 Hipify 來(lái)將 CUDA 代碼轉換成 HIP。
      使用 TensorFlow 框架開(kāi)發(fā)的機器學(xué)習軟件運行堆棧如下圖所示,其中 CuDNN (CUDA Deep Neural Network) 是 NVIDIA 為深度神經(jīng)網(wǎng)絡(luò )開(kāi)發(fā)的 GPU 加速庫。
      在整個(gè)軟件堆棧中,Bitfusion 在 CUDA driver 這個(gè)層面上截獲了所有的 CUDA 服務(wù)訪(fǎng)問(wèn),然后把這些服務(wù)請求和數據通過(guò)網(wǎng)絡(luò )傳遞給 Bitfusion Server,在服務(wù)器這一端再把這些服務(wù)請求交給真正的 CUDA driver 來(lái)處理,這就是 Bitfusion 的基本工作原理,如下圖所示。我們可以看到 Bitfusion Client 的軟件堆棧中插入了一個(gè) CUDA driver 的代理,通過(guò)這個(gè)代理來(lái)把服務(wù)請求轉發(fā)給 Bitfusion Server 上的 CUDA 下層服務(wù)堆棧。GPU 輔助的神經(jīng)網(wǎng)絡(luò )學(xué)習完成之后,結果再逆向通過(guò)這個(gè)堆棧返回機器學(xué)習應用 ML App。
      GPU分區
      在實(shí)現 CUDA 堆棧功能的基礎上,Bitfusion 還支持對于 GPU 的靈活劃分。對于很多機器學(xué)習應用來(lái)講,它們的計算量不需要用到整塊 GPU,只需要部分計算能力就行了。同時(shí),把一塊物理 GPU 劃分成多個(gè)分區分配給多個(gè)用戶(hù)使用,就可以實(shí)現 GPU 共享。
      NVIDIA 自己的 vGPU 解放方案也可以實(shí)現 GPU 的分區,通過(guò)分配 GPU 內存來(lái)控制對于 GPU 計算資源的使用,分配的比例有全部、二分一、四分之一等,各個(gè) vGPU 的大小必須一致,比較死板。
      相比之下 Bitfusion 的分區方案就靈活多了,可以根據用戶(hù)需求任意劃分分區,分區大小不需要一致。特別適合于機器學(xué)習這種應用場(chǎng)景,不同的機器學(xué)習應用需要的 GPU 算力是不一樣的,分配一塊合適的分區有助于避免 GPU 資源的浪費。同時(shí),由于神經(jīng)網(wǎng)絡(luò )的訓練通常是一個(gè)需要反復調整參數持續改進(jìn)的過(guò)程,獨占整個(gè) GPU 會(huì )造成極大的資源浪費,Bitfusion 的 GPU 分區功能特別適合這種應用場(chǎng)景。
      Bitfusion 的 GPU 分區方案具有以下特點(diǎn):
    • 分區可以是任意大小:Bitfusion 可以指定任意大小的分區,例如 1%;如前所述,這特別適用于開(kāi)發(fā)測試等試驗性的應用場(chǎng)景。
    • GPU 獨立性:各個(gè) GPU 分區相互獨立,各自運行不同的 AI 框架和模型,絕對不會(huì )相互影響。
    • 大小可動(dòng)態(tài)調整:GPU 分區可以動(dòng)態(tài)調整大小,例如從同一塊物理 GPU 分出的兩塊分區分別為 45% 和 55%,55% 的 GPU 分區可以進(jìn)一步拆分成更小的兩塊 35% 和 20%,而不會(huì )影響另一塊 45% 分區 上工作負載的正常運行。
    • 支持多個(gè)物理 GPU:從不同物理 GPU 中分出來(lái)的多個(gè) GPU 分區能夠以多個(gè) GPU 的形式分配給同一個(gè)用戶(hù)和工作負載,這既可以提高整個(gè) GPU 資源池的利用率,也有助于開(kāi)發(fā)和調試多 GPU 工作負載應用。
      總結
      Bitfusion 的工作原理決定了其應用場(chǎng)景,想要使用 Bitfusion 來(lái)共享 GPU 加速機器學(xué)習必須滿(mǎn)足以下條件:
    • GPU 支持 CUDA 架構并且支持 vSphere 7
    • 機器學(xué)習應用的 Linux 虛機必須在 vSphere 平臺上運行 (vSphere 6.7 以上版本)
    • 提請大家注意,Bitfusion 并不適用于 VDI 應用場(chǎng)景,如果你想共享 GPU 加速 3D 設計渲染的話(huà),NVIDIA 的 vGPU 是更合適的解決方案。Bitfusion 目前只支持 GPU 虛擬化共享,將來(lái)還有計劃支持其他硬件加速設備  FPGA 和 ASIC 的虛擬化和共享。
    • Bitfusion 的工作原理決定了它有一些額外的資源消耗,主要是客戶(hù)端和服務(wù)器之間的網(wǎng)絡(luò )傳輸開(kāi)銷(xiāo)。這些額外的開(kāi)銷(xiāo)對于GPU的利用率會(huì )有一些怎樣的損耗呢?我們將在下一期的“Bitfusion性能評估”中來(lái)回答這些問(wèn)題。
      延伸閱讀
      將 VMware vSphere / vSAN 軟件與 Intel 的最新硬件平臺技術(shù)相結合,可以為用戶(hù)交付最佳的超融合架構平臺,幫助用戶(hù)簡(jiǎn)化數據中心管理,降低采購和運維成本,輕松應對企業(yè)在數字化轉型中面對的各種挑戰,是現代應用的理想運行平臺:
    • VMware vSAN 是最佳的存儲方案平臺,具有管理簡(jiǎn)便、高性能、低成本、易擴展的特點(diǎn),在 vSAN 平臺上可以支持任何類(lèi)型的應用。
    • Intel 至強處理器提供最強計算能力,基于傲騰 (Optane) 和 3D NAND 技術(shù)的固態(tài)盤(pán)是理想的高速緩存,以太網(wǎng)融合網(wǎng)卡提供穩定的網(wǎng)絡(luò )帶寬和低網(wǎng)絡(luò )延遲。
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 辽宁省| 介休市| 泰安市| 赫章县| 吴堡县| 昭平县| 牙克石市| 河间市| 唐河县| 卢湾区| 锦屏县| 高邑县| 襄城县| 吉水县| 锦屏县| 绥阳县| 宾川县| 安泽县| 克拉玛依市| 措美县| 宜阳县| 微山县| 巍山| 江孜县| 广东省| 巴林左旗| 江孜县| 晋中市| 正阳县| 巴青县| 林州市| 庄浪县| 永顺县| 南和县| 菏泽市| 连州市| 红安县| 安陆市| 鹤壁市| 神农架林区| 阿鲁科尔沁旗| http://444 http://444 http://444 http://444 http://444 http://444