3月19日,華為云ModelArts 一站式AI開(kāi)發(fā)平臺在斯坦福大學(xué)發(fā)布的DAWNBench 榜單中,分別獲得圖像識別總訓練時(shí)間和推理性能榜單的冠軍。

普惠AI開(kāi)發(fā)平臺ModelArts,模型訓練速度世界第一
此次華為云 ModelArts 將訓練時(shí)間縮短至4分8秒,比3個(gè)月前榜單公布的紀錄足足快了一倍。而此前幾次 DAWNBench 圖像識別訓練的最佳紀錄也均由華為云 ModelArts 創(chuàng )造。
那么,勢頭強勁的華為云 ModelArts 究竟有何超能力?它如何在高手如云的基準測試中,僅用短短3個(gè)月便打破自己的紀錄?它又分別對訓練和推理做了哪些優(yōu)化,從而實(shí)現如此出色的性能?新發(fā)布的AI市場(chǎng)又為 AI 開(kāi)發(fā)者們帶來(lái)了哪些便利?
捧走訓練推理雙料冠軍
比此前最高訓練紀錄快1倍
斯坦福 DAWNBench 榜單是用以衡量端到端的深度學(xué)習模型訓練和推理性能的國際權威基準測試平臺,相應的排行榜反映了當前業(yè)界深度學(xué)習平臺技術(shù)的領(lǐng)先性。
該榜單最新的圖像識別排行榜顯示,在訓練性能方面,華為云 ModelArts 用128塊 V100 GPU,在 ResNet50_on_ImageNet(93%以上精度)上訓練模型,訓練時(shí)間僅為4分08秒,較其2018年12月創(chuàng )下的9分22秒紀錄快了1倍,比此前 fast.ai 在 AWS 平臺上的訓練速度快4倍。

斯坦福大學(xué)DAWNbench訓練時(shí)間榜單
在推理性能方面,華為云 ModelArts 識別圖片的速度是第二名的1.72倍、亞馬遜的4倍、谷歌的9.1倍。

斯坦福大學(xué)DAWNbench推理性能榜單
華為云 ModelArts 是如何做到在國際權威深度學(xué)習模型基準平臺上表現出色,并在短短3個(gè)月的時(shí)間打破自己創(chuàng )造的紀錄?
這就要歸功于 ModelArts 團隊從訓練和推理兩大部分著(zhù)手,包括高性能分布式模型訓練和極速推理技術(shù)在內的一系列優(yōu)化。
優(yōu)化訓練的三大維度:
網(wǎng)絡(luò )結構、框架和算法
在訓練方面,華為云 ModelArts 團隊主要從深度神經(jīng)網(wǎng)絡(luò )結構、分布式訓練框架、深度學(xué)習訓練算法三個(gè)維度展開(kāi)優(yōu)化。
1、深度神經(jīng)網(wǎng)絡(luò )結構優(yōu)化
本次使用的網(wǎng)絡(luò )結構是基于經(jīng)典的 ResNet50 結構。由于在訓練中使用了 128*128 的低分辨率輸入圖片來(lái)提升訓練的速度,對訓練精度產(chǎn)生了一定影響,原始模型無(wú)法在維持訓練 epoch 數的情況下將模型訓練到指定的 top5 93% 精度。
為此,ModelArts 團隊對 ResNet50 中的卷積結構進(jìn)行了優(yōu)化,從而在低分辨率訓練模式下也能夠穩定達到目標精度。
2、分布式訓練框架優(yōu)化
深度學(xué)習訓練過(guò)程涉及大規模的參數的網(wǎng)絡(luò )間傳遞。TensorFlow 使用中心化的網(wǎng)絡(luò )參數服務(wù)器(Parameter Server)來(lái)承擔梯度的收集、平均和分發(fā)工作,對 server 節點(diǎn)的訪(fǎng)問(wèn)會(huì )成為瓶頸,帶寬利用率低。為此 ModelArts 團隊使用 AllReduce 算法來(lái)進(jìn)行梯度聚合來(lái)優(yōu)化帶寬。

同時(shí)對傳輸的梯度進(jìn)行融合,對小于閾值大小的梯度多次傳輸合并為一次,提升帶寬利用率;另外在通信底層采用 NVIDIA 的 NvLink、P2P 等技術(shù)來(lái)提升節點(diǎn)內和節點(diǎn)間通信帶寬,降低通信時(shí)延。

3、深度學(xué)習訓練算法優(yōu)化
在本次的訓練過(guò)程中使用的分布式全局 batch size 為32768,這樣的超大 batch size 提升了訓練的并行度,但也導致了收斂精度降低的問(wèn)題。為此 ModelArts 團隊實(shí)現《Large Batch Training of Convolutional Networks》中提出的層次自適應速率縮放(LARS)算法,在全局學(xué)習率調度方面,使用了帶 warmup 的 linear cosine decay scheduler,訓練優(yōu)化器則采用 momentum 算法。

在本次提交的訓練結果中,ModelArts 僅用了35個(gè) epoch 即將模型訓練到了指定精度,并在全程除了最后一個(gè) epoch 外均保持在32K的大 batch size 下,最終用時(shí)4分08秒,比之前的成績(jì)再次提升了一倍。
優(yōu)化推理的三大維度:
網(wǎng)絡(luò )結構、量化與剪枝
在推理方面,ModelArts 團隊從以下三個(gè)方面進(jìn)行了優(yōu)化:1.網(wǎng)絡(luò )結構優(yōu)化2. Int8 量化3. 神經(jīng)網(wǎng)絡(luò )卷積通道剪枝。
1、網(wǎng)絡(luò )結構優(yōu)化
在推理中同樣采用了 ResNet50 模型,并且是推理效率更優(yōu)的 ResNet50-v1 版本。在此模型的基礎上將降采樣提前并使用了信息損失更小的降采樣方法,既提升了推理速度,又獲得了更高的模型精度。
2、Int8 量化
低比特量化是提升推理性能的一種主要手段,其中 int8 量化方法的通用性強且對模型精度的損失小。在量化的過(guò)程中先加載原始模型,再對原始模型創(chuàng )建對應的 int8 量化模型,然后提取訓練中典型樣本對量化模型進(jìn)行校準,最后基于校準結果產(chǎn)生優(yōu)化后的 int8 模型。

在此量化中模型的推理精度僅損失了0.15%,而模型的推理速度提升了2倍以上。
3、神經(jīng)網(wǎng)絡(luò )卷積通道剪枝
研究表明網(wǎng)絡(luò )中很多連接都是接近0或者冗余的,對這些參數進(jìn)行剔除對精度影響相對較小。模型剪枝方法包含結構剪枝和非結構剪枝。非結構化剪枝設定一個(gè)閾值,當權重低于這個(gè)閾值時(shí)候會(huì )被設置為0,不再更新。
這個(gè)方法使得模型連接變得稀疏,但是由于這些連接分散在各個(gè)權重里,而由于 GPU 并不支持稀疏矩陣卷積和乘法加速,因此并不能有效提升推理速度。

結構化剪枝主要使用的方法是卷積通道剪枝,即通過(guò)一些方法評估神經(jīng)網(wǎng)絡(luò )中的每個(gè)卷積核的影響系數,然后將其中影響系數較低的卷積核整體去掉,而使得整個(gè)模型變小,推理速度提升。
不知道如何使用華為云ModelArts?
此前,我們曾詳述華為云 ModelArts 平臺的四大亮點(diǎn)和操作流程。ModelArts 有開(kāi)源數據集、自動(dòng)化調參、MoXing 分布式框架和千級 GPU 集群規模訓練加速、云邊端一鍵式部署等 buff 加成,這一平臺的上手門(mén)檻非常低,從零編程經(jīng)驗的小白,到高階算法工程師,都能借助這一平臺更快更好地完成 AI 模型的訓練和推理。(延伸閱讀:神奇!零基礎分分鐘玩轉AI,華為云ModelArts全體驗)
如果你想快速了解華為云ModelArts,我們在前段時(shí)間也邀請到AI開(kāi)發(fā)領(lǐng)域的專(zhuān)家為同學(xué)們答疑
華為云正式發(fā)布國內首個(gè)AI模型市場(chǎng)
為了近一步拉進(jìn)ModelArts 平臺與開(kāi)發(fā)者的距離,3月21日,華為云在華為中國生態(tài)伙伴大會(huì )上正式發(fā)布華為云 AI 市場(chǎng)。這個(gè)在華為云 ModelArts 平臺基礎上構建的開(kāi)發(fā)者生態(tài)社區,為高校、企業(yè)及個(gè)人開(kāi)發(fā)者等群體提供安全開(kāi)放、公平可靠的 AI 模型、API、數據集以及競賽案例等內容共享和交易。

華為副總裁、云 BU 總裁鄭葉來(lái)
攜手廣聯(lián)達副總裁王鵬翊現場(chǎng)發(fā)布華為云AI 市場(chǎng)
從高校科研機構、AI應用開(kāi)發(fā)商、解決方案集成商、企業(yè)到個(gè)人開(kāi)發(fā)者,這些 AI 開(kāi)發(fā)生態(tài)鏈各參與方均被有效連接,AI 市場(chǎng)不僅幫助他們加速 AI 產(chǎn)品開(kāi)發(fā)和落地,而且確保共享及交易環(huán)境足夠安全、開(kāi)放。

華為云 AI 市場(chǎng)
華為云 AI 市場(chǎng)中的 AI 模型市場(chǎng),這也是國內首個(gè)提供發(fā)布及訂閱 AI 模型服務(wù)的平臺。AI 模型市場(chǎng)的主要功能是發(fā)布和訂閱 AI 模型,通過(guò)市場(chǎng)中間人機制及 ModelArts 平臺,保證買(mǎi)賣(mài)雙方模型和數據安全。
文末福利!
華為云 ModelArts 平臺于今年1月30日正式上線(xiàn),同時(shí)ModelArts的 P100 訓練GPU3月29號開(kāi)始全網(wǎng)打折優(yōu)惠,優(yōu)惠幅度達 58%。掃描下方二維碼,快來(lái)體驗吧!
