以下是推薦的有關(guān)HPC、GPU和AI的會(huì )議。
一、Ceph和CERN HPC基礎設施在過(guò)去五年中,CERN的IT部門(mén)使用Ceph為其龐大的OpenStack云構建了橫向擴展存儲。對于塊和對象存儲用例,無(wú)論有無(wú)擦除編碼,Ceph都表現出靈活性和可擴展性,同時(shí)能夠應對基礎設施故障。在這次講座中,CERN的Dan van der Ster和Arne Wiebalck將重點(diǎn)介紹用戶(hù)所需的關(guān)鍵指標,包括POSIX合規性、小文件延遲、元數據吞吐量和可擴展性以及容錯能力,同時(shí)展示行業(yè)標準和新的微基準。來(lái)自CERN和SKA的演講者也會(huì )討論HPC和裸機。
二、Nova中的虛擬GPU紅帽的Sylvain Bauza和Critrix的Jianghua Wang認為,OpenStack中的GPU是一個(gè)長(cháng)期存在的問(wèn)題。為每個(gè)實(shí)例(即AI、挖掘和桌面)提供高性能GPU有很多商業(yè)案例。直到Queens,將這些設備暴露給訪(fǎng)客的唯一解決方案是在Nova中通過(guò)PCI。在這次講座中,他們將演示如何通過(guò)向XenServer和libvirt / KVM Nova驅動(dòng)程序請求虛擬GPU(vGPU),并分享即將發(fā)布的路線(xiàn)圖。
三、使用OpenStack加速服務(wù)和可組合硬件優(yōu)化HPC / AI云在這個(gè)會(huì )議上,來(lái)自99cloud的Shuquan Huang和來(lái)自英特爾公司的Jianfeng Ding將介紹OpenStack Acceleration Service——Cyborg,它為加速器設備(例如FPGA、GPU、NVMe SSD)提供管理框架。他們還將討論Rack Scale Design(RSD)技術(shù),并解釋如何動(dòng)態(tài)聚合物理硬件資源以滿(mǎn)足AI / HPC需求。通過(guò)API動(dòng)態(tài)組合針對工作負載優(yōu)化的硬件和加速器設備,使數據中心管理員能夠以高效的自動(dòng)化方式管理這些資源。
四、AI驅動(dòng)的編排、挑戰和機遇來(lái)自TELUS Communications的Sana Tariq將分享在混亂的多供應商、多領(lǐng)域混合云生態(tài)系統中,從開(kāi)發(fā)評估標準(開(kāi)源/商業(yè)供應商)到架構考慮的實(shí)施服務(wù)編排平臺的過(guò)程。這次講座關(guān)注的是AI和ML驅動(dòng)的自動(dòng)化和編排的未來(lái),聚焦如何優(yōu)化云/網(wǎng)絡(luò )資源管理,增強安全性,提升用戶(hù)體驗,為未來(lái)服務(wù)格局創(chuàng )造新的商業(yè)機會(huì )。
五、為HPC用戶(hù)部署OpenStack學(xué)到的經(jīng)驗教訓明尼蘇達州超級計算研究所部署了一個(gè)名為Stratus的OpenStack云。這個(gè)演講描述了啟動(dòng)一個(gè)平臺以支持有特定數據使用協(xié)議的研究的經(jīng)驗教訓,以及有關(guān)問(wèn)責制、風(fēng)險接受以及大型超級計算機設施偏離其傳統支持基礎時(shí)項目領(lǐng)導角色的問(wèn)題。
六、案例研究:用于高速存儲機器學(xué)習的大規模部署來(lái)自NTT的三位演講者將提供一個(gè)帶有Ansible和容器編排自動(dòng)化、完全開(kāi)源的參考集群模型的案例研究。環(huán)境基于GPU計算和高速存儲,其中使用Chainer和ChainerMN學(xué)習框架與多個(gè)NVIDIDA GPU節點(diǎn),并將完美可擴展的OpenStack Swift對象存儲和文件系統API作為高速數據存儲。
