06月19日消息:在上一篇文章《IBM Platform HPC應用及組件解析》中,詳細介紹了Platform HPC在單一產(chǎn)品中提供完整的高性能計算(HPC)管理解決方案,在本文中將更為詳細的解讀Platform HPC的運行模式、集群節點(diǎn)、管理節點(diǎn)、計算節點(diǎn)、可視化節點(diǎn)、登陸節點(diǎn)、集群網(wǎng)絡(luò )、公共網(wǎng)絡(luò )、配置網(wǎng)絡(luò )、管理網(wǎng)絡(luò )、應用網(wǎng)絡(luò )。
運作模式
圖中示例的高可用環(huán)境是用于顯示如何設計一個(gè)Platform HPC集群部署,這只是幾種可能配置之一。在我們的示例中,有4個(gè)網(wǎng)絡(luò )(公共網(wǎng)絡(luò )、配置網(wǎng)絡(luò )、管理網(wǎng)絡(luò )和應用網(wǎng)絡(luò ))以及一個(gè)共享的集群存儲,外加一個(gè)雙節點(diǎn)GPFS集群。
圖:在物理硬件上部署Platform HPC集群
集群節點(diǎn)
管理節點(diǎn)、計算節點(diǎn)和可視化節點(diǎn)可以用于Platform HPC集群中,每個(gè)節點(diǎn)都有自己的作用。
管理節點(diǎn)
管理節點(diǎn)是第一個(gè)安裝在集群中的節點(diǎn),每個(gè)集群都需要一個(gè)管理節點(diǎn)。它控制集群中的其他節點(diǎn)。在PHPC的早期版本中,這個(gè)節點(diǎn)也被稱(chēng)為頭節點(diǎn)或者主節點(diǎn)。管理節點(diǎn)的角色是一個(gè)在用戶(hù)站點(diǎn)的部署節點(diǎn),包含在集群中運行應用所需的所有軟件組件。在管理節點(diǎn)連接到一個(gè)集群節點(diǎn)之后,它為計算節點(diǎn)配置和部署客戶(hù)端軟件。安裝在管理節點(diǎn)上的軟件提供以下功能:
- 行政、管理和監控集群
- 安裝計算節點(diǎn)
- 無(wú)狀態(tài)和有狀態(tài)的管理
- 資源庫管理和更新
- 集群配置管理
- HPC套件管理
- 配置模板管理
- 應用模板管理
- 使用Platform MPI套件加速并行應用處理和應用擴展
- 使用Platform LSF套件進(jìn)行工作負載管理、監控和報告
- 用戶(hù)登錄、編制和提交作業(yè)到集群
- 充當防火墻把集群與外部節點(diǎn)和網(wǎng)絡(luò )阻隔開(kāi)
- 充當服務(wù)器面向多個(gè)服務(wù),例如DHCP、TFTP、HTTP以及可選的DNS、LDAP、NFS以及NTP
計算節點(diǎn)
計算節點(diǎn)是專(zhuān)為計算密集型應用設計,以滿(mǎn)足計劃用例的功能要求。計算機節點(diǎn)是通過(guò)管理節點(diǎn)配置和更新的,在集群中執行計算任務(wù)。工作負載管理系統(Platform LSF)在計算節點(diǎn)上設置作業(yè)位置數和CPU核心數。
在計算節點(diǎn)配置好之后,會(huì )安裝操作系統(OS)分布、Platform LSF套件(工作負載管理代理、監控和資源管理代理)、Platform MPI套件以及其他定制軟件(用戶(hù)定義)。這個(gè)計算節點(diǎn)中可以有一些本地磁盤(pán)用于操作系統和臨時(shí)存儲運行應用。也可以配置操作系統在無(wú)盤(pán)系統上啟動(dòng),以提高I/O性能(使用無(wú)狀態(tài)配置)。
計算節點(diǎn)還加載NFS,或者可以配置GPFS實(shí)現共享存儲。這些計算節點(diǎn)可以協(xié)同工作使用MPI解決問(wèn)題。這是由連接到高速互連網(wǎng)絡(luò )實(shí)現的。一些應用在模擬過(guò)程中不要求每個(gè)計算節點(diǎn)上必須有大磁盤(pán)存儲空間。不過(guò),大型模型可能不適合可用的內存空間,必須在核心外解決,然后從強大的本地存儲中受益。