北京時(shí)間4月10日,CNCF(云原生計算基金會(huì ))正式接納由華為云捐贈的容器批量計算項目Volcano, 迎來(lái)CNCF首個(gè)容器批量計算項目。
項目的加入,將CNCF的云原生版圖進(jìn)一步擴展至AI、大數據、基因等批量計算領(lǐng)域,為構建“云原生批量計算平臺”奠定了基礎。
華為云CTO張宇昕表示:
“華為云多年來(lái)一直致力于云原生技術(shù)推廣,不僅在國內最早推出了Kubernetes云原生容器技術(shù)的商業(yè)化產(chǎn)品云容器引擎CCE和云容器實(shí)例CCI,而且在開(kāi)源社區發(fā)起并領(lǐng)導了多個(gè)生態(tài)項目,幫助各行業(yè)更快地落地并實(shí)踐云原生技術(shù)。
是基于Kubernetes的云原生批量計算引擎,基于華為云在A(yíng)I、大數據領(lǐng)域的深厚業(yè)務(wù)積累,補齊了Kubernetes在面向AI、大數據、高性能計算等批量計算任務(wù)調度、編排等場(chǎng)景下的短板,向下支持鯤鵬、昇騰、X86等多元算力,向上使能TensorFlow、Spark、華為MindSpore等主流行業(yè)計算框架,讓數據科學(xué)家和算法工程師充分享受到云原生技術(shù)所帶來(lái)的高效計算與極致體驗。”

介紹
隨著(zhù)Kubernetes的成熟,越來(lái)越多的企業(yè)把Kubernetes作為AI、大數據以及高性能批量計算的下一代基礎設施,得益于Kubernetes在應用一致性、跨云遷移便利性、靈活任務(wù)調度等方面的優(yōu)勢,使得Kubernetes在大數據、AI、以及高性能批量計算領(lǐng)域快速得到廣泛應用。
然而,Kubernetes作為普適的容器化解決方案,應用到大數據、AI、高性能批量計算等專(zhuān)業(yè)領(lǐng)域時(shí),仍與業(yè)務(wù)訴求存在一些差距,主要體現在:
- K8s的原生調度功能無(wú)法滿(mǎn)足計算要求
- K8s作業(yè)管理能力無(wú)法滿(mǎn)足AI訓練的復雜訴求
- 數據管理方面,缺少計算側數據緩存能力,數據位置感知等功能
- 資源管理方面缺少分時(shí)共享,利用率低
- 硬件異構能力弱
華為云容器團隊針對以上問(wèn)題,推出高性能容器批量計算解決方案。
同時(shí),為加快云原生技術(shù)在各行業(yè)的快速普及,于2019年將解決方案的核心引擎Volcano開(kāi)源,Volcano在調度、作業(yè)管理、數據管理、資源管理四個(gè)方面進(jìn)行了重點(diǎn)優(yōu)化。
- 增強了任務(wù)調度能力,如公平的調度(fair-share),組調度(gang-scheduling)
- 進(jìn)一步優(yōu)化了作業(yè)管理能力,如multiple pod template能力, 更靈活的error handling機制
- 增加計算側數據緩存,提升數據的傳輸與讀取效率
- 引入多維度的綜合評分機制,實(shí)現資源更高效的管理和分配
- 多元算力支持:支持x86、鯤鵬和昇騰等算力
生態(tài)合作
針對不同應用場(chǎng)景,Volcano已與多個(gè)主流計算框架社區完成官方合作集成,包括Kubeflow、Spark、PaddlePaddle、Horovod (MPI)、Cromwell 、MindSpore等。
彌補了Kubernetes在A(yíng)I場(chǎng)景下的不足,為飛槳分布式深度學(xué)習對接Kubernetes提供了更好支持,PaddlePaddle on Volcano方案顯著(zhù)簡(jiǎn)化了飛槳推薦系統解決方案 ElasticCTR的部署落地,我們非常期待Kubernetes+Volcano+PaddlePaddle的整套開(kāi)源部署方案更加成熟完善,給AI開(kāi)發(fā)者帶來(lái)更大便利”。
—飛槳(PaddlePaddle)總架構師于佃海
是華為開(kāi)源的一款支持端邊云全場(chǎng)景的深度學(xué)習訓練推理框架,當前主要應用于計算機視覺(jué)、自然語(yǔ)言處理等AI領(lǐng)域,旨在為數據科學(xué)家和算法工程師提供設計友好、運行高效的開(kāi)發(fā)體驗,提供昇騰AI處理器原生支持及軟硬件協(xié)同優(yōu)化。Volcano開(kāi)源項目將有助于提升Kubernetes對AI任務(wù)的調度能力支持,有利于MindSpore等深度學(xué)習框架更加有效的部署,為AI和云原生兩大領(lǐng)域的攜手共創(chuàng )繁榮開(kāi)源生態(tài)打下了堅實(shí)的基礎。
—MindSpore社區技術(shù)委員會(huì )主席、華為MindSpore首席科學(xué)家陳雷教授
自2019年6月宣布開(kāi)源以來(lái),受到了廣泛的關(guān)注和支持,來(lái)自15家大企業(yè)/機構的80+核心開(kāi)發(fā)者參與了社區開(kāi)發(fā)及貢獻。
商業(yè)應用
目前,Volcano已在華為云容器批量計算解決方案商用,并支撐多家國內外頭部企業(yè)應用于A(yíng)I、大數據、基因等計算場(chǎng)景。
支持批量任務(wù)與容器的快速發(fā)放,最快每秒可發(fā)放1000容器,并提供公平調度、隊列調度等高級功能,同時(shí)與華為鯤鵬、昇騰處理器深度融合,打造更高性能、更高性?xún)r(jià)比的容器批量計算解決方案。
未來(lái)可期
此次CNCF正式將Volcano接納為云原生領(lǐng)域唯一容器批量計算項目,將極大促進(jìn)Volcano上下游社區生態(tài)構建及合作,吸引廣大云原生企業(yè)用戶(hù)深度參與,Volcano將在企業(yè)數字化、云原生轉型過(guò)程中發(fā)揮越來(lái)越重要的作用,華為云也將在云原生領(lǐng)域持續耕耘、持續引領(lǐng)創(chuàng )新、繁榮生態(tài),助力各行業(yè)走向快速智能發(fā)展之路。