3月19日，華為云ModelArts 一站式AI開(kāi)發(fā)平臺(tái)在斯坦福大學(xué)發(fā)布的DAWNBench 榜單中，分別獲得圖像識(shí)別總訓(xùn)練時(shí)間和推理性能榜單的冠軍。

　　普惠AI開(kāi)發(fā)平臺(tái)ModelArts，模型訓(xùn)練速度世界第一

　　此次華為云 ModelArts 將訓(xùn)練時(shí)間縮短至4分8秒，比3個(gè)月前榜單公布的紀(jì)錄足足快了一倍。而此前幾次 DAWNBench 圖像識(shí)別訓(xùn)練的最佳紀(jì)錄也均由華為云 ModelArts 創(chuàng)造。

　　那么，勢(shì)頭強(qiáng)勁的華為云 ModelArts 究竟有何超能力？它如何在高手如云的基準(zhǔn)測(cè)試中，僅用短短3個(gè)月便打破自己的紀(jì)錄？它又分別對(duì)訓(xùn)練和推理做了哪些優(yōu)化，從而實(shí)現(xiàn)如此出色的性能？新發(fā)布的AI市場(chǎng)又為 AI 開(kāi)發(fā)者們帶來(lái)了哪些便利？

　　捧走訓(xùn)練推理雙料冠軍

　　比此前最高訓(xùn)練紀(jì)錄快1倍

　　斯坦福 DAWNBench 榜單是用以衡量端到端的深度學(xué)習(xí)模型訓(xùn)練和推理性能的國(guó)際權(quán)威基準(zhǔn)測(cè)試平臺(tái)，相應(yīng)的排行榜反映了當(dāng)前業(yè)界深度學(xué)習(xí)平臺(tái)技術(shù)的領(lǐng)先性。

　　該榜單最新的圖像識(shí)別排行榜顯示，在訓(xùn)練性能方面，華為云 ModelArts 用128塊 V100 GPU，在 ResNet50_on_ImageNet（93%以上精度）上訓(xùn)練模型，訓(xùn)練時(shí)間僅為4分08秒，較其2018年12月創(chuàng)下的9分22秒紀(jì)錄快了1倍，比此前 fast.ai 在 AWS 平臺(tái)上的訓(xùn)練速度快4倍。

　　斯坦福大學(xué)DAWNbench訓(xùn)練時(shí)間榜單

　　在推理性能方面，華為云 ModelArts 識(shí)別圖片的速度是第二名的1.72倍、亞馬遜的4倍、谷歌的9.1倍。

　　斯坦福大學(xué)DAWNbench推理性能榜單

　　華為云 ModelArts 是如何做到在國(guó)際權(quán)威深度學(xué)習(xí)模型基準(zhǔn)平臺(tái)上表現(xiàn)出色，并在短短3個(gè)月的時(shí)間打破自己創(chuàng)造的紀(jì)錄？

　　這就要?dú)w功于 ModelArts 團(tuán)隊(duì)從訓(xùn)練和推理兩大部分著手，包括高性能分布式模型訓(xùn)練和極速推理技術(shù)在內(nèi)的一系列優(yōu)化。

　　優(yōu)化訓(xùn)練的三大維度：

　　網(wǎng)絡(luò)結(jié)構(gòu)、框架和算法

　　在訓(xùn)練方面，華為云 ModelArts 團(tuán)隊(duì)主要從深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)、分布式訓(xùn)練框架、深度學(xué)習(xí)訓(xùn)練算法三個(gè)維度展開(kāi)優(yōu)化。

　　1、深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

　　本次使用的網(wǎng)絡(luò)結(jié)構(gòu)是基于經(jīng)典的 ResNet50 結(jié)構(gòu)。由于在訓(xùn)練中使用了 128*128 的低分辨率輸入圖片來(lái)提升訓(xùn)練的速度，對(duì)訓(xùn)練精度產(chǎn)生了一定影響，原始模型無(wú)法在維持訓(xùn)練 epoch 數(shù)的情況下將模型訓(xùn)練到指定的 top5 93% 精度。

　　為此，ModelArts 團(tuán)隊(duì)對(duì) ResNet50 中的卷積結(jié)構(gòu)進(jìn)行了優(yōu)化，從而在低分辨率訓(xùn)練模式下也能夠穩(wěn)定達(dá)到目標(biāo)精度。

　　2、分布式訓(xùn)練框架優(yōu)化

　　深度學(xué)習(xí)訓(xùn)練過(guò)程涉及大規(guī)模的參數(shù)的網(wǎng)絡(luò)間傳遞。TensorFlow 使用中心化的網(wǎng)絡(luò)參數(shù)服務(wù)器（Parameter Server）來(lái)承擔(dān)梯度的收集、平均和分發(fā)工作，對(duì) server 節(jié)點(diǎn)的訪問(wèn)會(huì)成為瓶頸，帶寬利用率低。為此 ModelArts 團(tuán)隊(duì)使用 AllReduce 算法來(lái)進(jìn)行梯度聚合來(lái)優(yōu)化帶寬。

　　同時(shí)對(duì)傳輸?shù)奶荻冗M(jìn)行融合，對(duì)小于閾值大小的梯度多次傳輸合并為一次，提升帶寬利用率；另外在通信底層采用 NVIDIA 的 NvLink、P2P 等技術(shù)來(lái)提升節(jié)點(diǎn)內(nèi)和節(jié)點(diǎn)間通信帶寬，降低通信時(shí)延。

　　3、深度學(xué)習(xí)訓(xùn)練算法優(yōu)化

　　在本次的訓(xùn)練過(guò)程中使用的分布式全局 batch size 為32768，這樣的超大 batch size 提升了訓(xùn)練的并行度，但也導(dǎo)致了收斂精度降低的問(wèn)題。為此 ModelArts 團(tuán)隊(duì)實(shí)現(xiàn)《Large Batch Training of Convolutional Networks》中提出的層次自適應(yīng)速率縮放（LARS）算法，在全局學(xué)習(xí)率調(diào)度方面，使用了帶 warmup 的 linear cosine decay scheduler，訓(xùn)練優(yōu)化器則采用 momentum 算法。

　　在本次提交的訓(xùn)練結(jié)果中，ModelArts 僅用了35個(gè) epoch 即將模型訓(xùn)練到了指定精度，并在全程除了最后一個(gè) epoch 外均保持在32K的大 batch size 下，最終用時(shí)4分08秒，比之前的成績(jī)?cè)俅翁嵘艘槐丁?/div>

　　優(yōu)化推理的三大維度：

　　網(wǎng)絡(luò)結(jié)構(gòu)、量化與剪枝

　　在推理方面，ModelArts 團(tuán)隊(duì)從以下三個(gè)方面進(jìn)行了優(yōu)化：1.網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化2. Int8 量化3. 神經(jīng)網(wǎng)絡(luò)卷積通道剪枝。

　　1、網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化

　　在推理中同樣采用了 ResNet50 模型，并且是推理效率更優(yōu)的 ResNet50-v1 版本。在此模型的基礎(chǔ)上將降采樣提前并使用了信息損失更小的降采樣方法，既提升了推理速度，又獲得了更高的模型精度。

　　2、Int8 量化

　　低比特量化是提升推理性能的一種主要手段，其中 int8 量化方法的通用性強(qiáng)且對(duì)模型精度的損失小。在量化的過(guò)程中先加載原始模型，再對(duì)原始模型創(chuàng)建對(duì)應(yīng)的 int8 量化模型，然后提取訓(xùn)練中典型樣本對(duì)量化模型進(jìn)行校準(zhǔn)，最后基于校準(zhǔn)結(jié)果產(chǎn)生優(yōu)化后的 int8 模型。

　　在此量化中模型的推理精度僅損失了0.15%，而模型的推理速度提升了2倍以上。

　　3、神經(jīng)網(wǎng)絡(luò)卷積通道剪枝

　　研究表明網(wǎng)絡(luò)中很多連接都是接近0或者冗余的，對(duì)這些參數(shù)進(jìn)行剔除對(duì)精度影響相對(duì)較小。模型剪枝方法包含結(jié)構(gòu)剪枝和非結(jié)構(gòu)剪枝。非結(jié)構(gòu)化剪枝設(shè)定一個(gè)閾值，當(dāng)權(quán)重低于這個(gè)閾值時(shí)候會(huì)被設(shè)置為0，不再更新。

　　這個(gè)方法使得模型連接變得稀疏，但是由于這些連接分散在各個(gè)權(quán)重里，而由于 GPU 并不支持稀疏矩陣卷積和乘法加速，因此并不能有效提升推理速度。

　　結(jié)構(gòu)化剪枝主要使用的方法是卷積通道剪枝，即通過(guò)一些方法評(píng)估神經(jīng)網(wǎng)絡(luò)中的每個(gè)卷積核的影響系數(shù)，然后將其中影響系數(shù)較低的卷積核整體去掉，而使得整個(gè)模型變小，推理速度提升。

　　不知道如何使用華為云ModelArts？

　　此前，我們?cè)斒鋈A為云 ModelArts 平臺(tái)的四大亮點(diǎn)和操作流程。ModelArts 有開(kāi)源數(shù)據(jù)集、自動(dòng)化調(diào)參、MoXing 分布式框架和千級(jí) GPU 集群規(guī)模訓(xùn)練加速、云邊端一鍵式部署等 buff 加成，這一平臺(tái)的上手門(mén)檻非常低，從零編程經(jīng)驗(yàn)的小白，到高階算法工程師，都能借助這一平臺(tái)更快更好地完成 AI 模型的訓(xùn)練和推理。（延伸閱讀：神奇！零基礎(chǔ)分分鐘玩轉(zhuǎn)AI，華為云ModelArts全體驗(yàn)）

　　如果你想快速了解華為云ModelArts，我們?cè)谇岸螘r(shí)間也邀請(qǐng)到AI開(kāi)發(fā)領(lǐng)域的專(zhuān)家為同學(xué)們答疑

　　華為云正式發(fā)布國(guó)內(nèi)首個(gè)AI模型市場(chǎng)

　　為了近一步拉進(jìn)ModelArts 平臺(tái)與開(kāi)發(fā)者的距離，3月21日，華為云在華為中國(guó)生態(tài)伙伴大會(huì)上正式發(fā)布華為云 AI 市場(chǎng)。這個(gè)在華為云 ModelArts 平臺(tái)基礎(chǔ)上構(gòu)建的開(kāi)發(fā)者生態(tài)社區(qū)，為高校、企業(yè)及個(gè)人開(kāi)發(fā)者等群體提供安全開(kāi)放、公平可靠的 AI 模型、API、數(shù)據(jù)集以及競(jìng)賽案例等內(nèi)容共享和交易。

　　華為副總裁、云 BU 總裁鄭葉來(lái)

　　攜手廣聯(lián)達(dá)副總裁王鵬翊現(xiàn)場(chǎng)發(fā)布華為云AI 市場(chǎng)

　　從高�？蒲袡C(jī)構(gòu)、AI應(yīng)用開(kāi)發(fā)商、解決方案集成商、企業(yè)到個(gè)人開(kāi)發(fā)者，這些 AI 開(kāi)發(fā)生態(tài)鏈各參與方均被有效連接，AI 市場(chǎng)不僅幫助他們加速 AI 產(chǎn)品開(kāi)發(fā)和落地，而且確保共享及交易環(huán)境足夠安全、開(kāi)放。

　　華為云 AI 市場(chǎng)

　　華為云 AI 市場(chǎng)中的 AI 模型市場(chǎng)，這也是國(guó)內(nèi)首個(gè)提供發(fā)布及訂閱 AI 模型服務(wù)的平臺(tái)。AI 模型市場(chǎng)的主要功能是發(fā)布和訂閱 AI 模型，通過(guò)市場(chǎng)中間人機(jī)制及 ModelArts 平臺(tái)，保證買(mǎi)賣(mài)雙方模型和數(shù)據(jù)安全。

　　文末福利！

　　華為云 ModelArts 平臺(tái)于今年1月30日正式上線，同時(shí)ModelArts的 P100 訓(xùn)練GPU3月29號(hào)開(kāi)始全網(wǎng)打折優(yōu)惠，優(yōu)惠幅度達(dá) 58%。掃描下方二維碼，快來(lái)體驗(yàn)吧！

【免責(zé)聲明】本文僅代表作者本人觀點(diǎn)，與CTI論壇無(wú)關(guān)。CTI論壇對(duì)文中陳述、觀點(diǎn)判斷保持中立，不對(duì)所包含內(nèi)容的準(zhǔn)確性、可靠性或完整性提供任何明示或暗示的保證。請(qǐng)讀者僅作參考，并請(qǐng)自行承擔(dān)全部責(zé)任。

相關(guān)熱詞搜索：華為云 ModelArts90

上一篇:一個(gè)可以改善所有客戶(hù)服務(wù)交互的概念

下一篇:最后一頁(yè)

相關(guān)閱讀：

·智能計(jì)算：華為云的 “芯”時(shí)代2019-01-11 14:44:17
·對(duì)話(huà)華為輪值董事長(zhǎng)徐直軍：華為云的加法和減法2018-07-04 15:44:43
·華為云總裁：華為云推進(jìn)產(chǎn)業(yè)互聯(lián)網(wǎng)發(fā)展2017-11-20 14:18:06
·華為云是家開(kāi)放的“瑞士銀行”2015-09-23 10:26:40

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

深度解讀華為云ModelArts90天性能翻倍的秘密

--斯坦福DAWNBench榜單雙冠煉成記

評(píng)論排行

推薦閱讀

專(zhuān)題

大家都在看

CTI論壇會(huì)員企業(yè)