IBM Platform Computing提供了一系列工作負載管理能力以?xún)?yōu)化運行各種采用高性能計算集群的應用,并通過(guò)多樣化工作負載、業(yè)務(wù)優(yōu)先級以及應用資源需求確保較高的資源使用率。工作負載管理有效地利用計算資源來(lái)盡可能快速地完成工作負載。為了實(shí)現有效的工作負載分配,這里需要一個(gè)智能的調度策略。智能的調度策略是基于對共享計算資源、應用優(yōu)先級以及用戶(hù)策略的了解。提供最佳服務(wù)等級協(xié)議管理,并通過(guò)提供更大的靈活性、可見(jiàn)性以及對作業(yè)調度的控制,來(lái)幫助降低運營(yíng)成本和基礎設施成本,這是投資回報最大化所需要的。
IBM平臺負載共享設施
IBM Platform LSF(負載共享設施)是一個(gè)功能強大的工作負載管理平臺,面向要求苛刻的、分布式和關(guān)鍵任務(wù)的高性能計算環(huán)境。IBM Platform LSF管理批量和高度并行的工作負載。它提供了靈活的以策略為驅動(dòng)的調度功能,這確保了共享計算資源自動(dòng)分配給用戶(hù)、群組以及作業(yè),與你的服務(wù)等級協(xié)議保持一致,從而改善資源使用情況和用戶(hù)生產(chǎn)效率。
高級調度功能使得Platform LSF適用于以高利用率運行,從而降低運營(yíng)成本。很多功能結合到一起縮短用戶(hù)的等待時(shí)間,提供更好的服務(wù)等級,這樣知識型工作者就可以獲得更高的工作效率,從而產(chǎn)生更快速、更高質(zhì)量的工作結果。它強大的管理功能使得一小群管理員可以更輕松地進(jìn)行管理,提高效率并釋放有價(jià)值的員工投入到其他項目中。例如,你可以委派控制一個(gè)特定的用戶(hù)社區到一個(gè)特定的項目或者給某個(gè)部門(mén)經(jīng)理。你還可以重新配置集群給一個(gè)群組,而不會(huì )導致其他所有群組的停機時(shí)間,使用一種受益于通過(guò)GPU的新型應用。所有這些功能都將轉化為靈活性。
Platform LSF功能的可擴展性可以滿(mǎn)足您不斷變化的需求,Platform LSF是可以在多個(gè)維度上進(jìn)行擴展的。它可以擴展到數十萬(wàn)的節點(diǎn)和數百萬(wàn)的作業(yè)。它還可以在其他維度進(jìn)行擴展:例如,在它所支持的資源廣度方面。無(wú)論你是管理Windows、Linux、GPU工作負載還是浮動(dòng)應用許可,Platform LSF都可以對跨多個(gè)數據中心和地域的大量用戶(hù)和資源進(jìn)行靈活控制。它還可以擴展支持不同類(lèi)型的工作負載,或者數百萬(wàn)以毫秒計算的短時(shí)作業(yè)。Platform LSF具有調度功能以滿(mǎn)足這些多樣化的需求,處理大規模工作負載。Platform LSF在解決各種調度問(wèn)題的能力上是獨一無(wú)二的,它能夠在一個(gè)集群上同時(shí)激活多重策略。
Platform LSF的智能調度策略包括以下特性:
公平調度
拓撲和核心感知調度
回填和搶占
資源預留
可調整大小的作業(yè)
連續和并行的控制
提前預約
作業(yè)饑餓
許可調度
基于SLA的調度
絕對優(yōu)先級調度
檢查點(diǎn)和恢復
作業(yè)陣列
GPU感知的調度,NVDIA GPU和英特爾至強Phi加速器均支持
與IBM platform MPI以及IBM并行環(huán)境的緊密集成
可自定義的調度器
以下版本提供了Platform LSF,以確保用戶(hù)擁有合適的功能集以滿(mǎn)足他們的需求:
快捷版:適合于單集群環(huán)境,針對低吞吐量、并行作業(yè)以及簡(jiǎn)單用戶(hù)群組結構進(jìn)行了優(yōu)化
標準版:適合于多集群或者網(wǎng)格環(huán)境,針對高吞吐量、連續作業(yè)以及復雜用戶(hù)群組結構進(jìn)行了優(yōu)化
高級版:支持極高的可擴展性,吞吐量達到100k+的核心以及并發(fā)作業(yè)
Platform LSF的性能取決于許多因素,包括集群中節點(diǎn)的數量、并行運行作業(yè)的數量、等待作業(yè)的數量、用戶(hù)作業(yè)查詢(xún)的數量以及查詢(xún)的頻率。隨著(zhù)這些任務(wù)的增加,調度周期和用戶(hù)響應時(shí)間也會(huì )隨之增加。對于高吞吐量工作負載來(lái)說(shuō),整體系統性能取決于處理能力、I/O容量以及調度節點(diǎn)的內存。以下表格提供了基于測試集群配置的衡量指南。對于大型集群來(lái)說(shuō),建議用戶(hù)尋求IBM的集群調優(yōu)服務(wù)和幫助。