當OpenStack遇見(jiàn)頂尖學(xué)府
CTI論壇(ctiforum)10月28日消息(記者 李文杰):OpenStack正在全球范圍掀起應用熱潮,僅在科研領(lǐng)域,便有歐洲核子研究組織CERN借助OpenStack去探求宇宙起源,NASA借助OpenStack去尋找地外人類(lèi)家園。日前,頂尖學(xué)府清華大學(xué)交叉信息研究院成功構建國內最大規模的OpenStack科研云平臺,單個(gè)集群規模達到6000個(gè)Core,16TB內存,540TB存儲的規模,幫助清華大學(xué)在生物醫療、基因測序、社交網(wǎng)絡(luò )、自然語(yǔ)言分析等新興學(xué)科領(lǐng)域進(jìn)行了卓有成效的探索。這一項目同時(shí)讓清華大學(xué)交叉信息研究院的數據中心采購成本降低60%,例行IT管理任務(wù)所花時(shí)間減少33%,能源成本降低80%。
清華大學(xué)交叉信息研究院
清華大學(xué)交叉信息研究院成立于2010年12月30日,由世界著(zhù)名計算機學(xué)家、2000年計算機科學(xué)最高獎圖靈獎得主、美國科學(xué)院院士、美國藝術(shù)與科學(xué)學(xué)院院士、中國科學(xué)院外籍院士姚期智院士領(lǐng)導,是國內首個(gè)致力于交叉信息科學(xué)研究的教學(xué)科研單位,致力于在計算機科學(xué)與技術(shù)和物理學(xué)兩大學(xué)科方向上開(kāi)展交叉建設,也是國內在量子信息研究最前沿的科研機構。
新科研需求與院校云平臺選型
隨著(zhù)越來(lái)越多科研項目的需要借助計算機集群,原有的使用單一HPC集群處理單一科研項目的“好日子”一去不復返了。舊的IT架構讓科學(xué)家們在面臨科學(xué)研究時(shí),已經(jīng)不能將注意力放在科研本身了。
“不應讓科學(xué)家們去要求IT具備靈活性,而是IT系統隨時(shí)都可以按需而動(dòng)。”著(zhù)名生物學(xué)家John Boyle在Nature的論文《生物學(xué)需要發(fā)展自身的大數據系統》這樣對IT系統的靈活性提出了強烈的需求。
“這該死的I/O!”加州大學(xué)圣克魯茲分銷(xiāo)的David Haussler教授更直接的對IT系統中的性能優(yōu)化十分懊惱。
如今,讓院校IT運維人員頭疼的是各種科研需求均需要使用計算機集群來(lái)進(jìn)行計算分析,清華大學(xué)交叉信息研究院目前就需要對科學(xué)影像處理、冷凍電鏡與蛋白質(zhì)結構、在線(xiàn)教育數據分析、社交網(wǎng)絡(luò )分析、自然語(yǔ)言處理、基因組測序分析等一系列項目進(jìn)行支持。盡管擁有超過(guò)200臺x86服務(wù)器,但不同項目對計算資源的不同需求、系統配置讓清華大學(xué)交叉信息研究院的IT運維難堪重負。
200臺物理服務(wù)器,超過(guò)2PB的存儲空間,10TB的固態(tài)存儲、光纖+軟交換的IT架構已經(jīng)讓包括清華大學(xué)交叉信息研究院助理院長(cháng)的徐葳在內也僅有兩名的IT運維人員捉襟見(jiàn)肘,就更不要說(shuō)原本希望自己嘗試解決IT系統靈活性的OpenStack+Ceph+Hadoop\Spark\Matlab\SAP HANA的云計算嘗試了。
為了更好的利用原有的硬件資源,同時(shí)構建起國內最大規模的產(chǎn)學(xué)研一體化OpenStack云平臺。尋找一家值得信賴(lài)的長(cháng)期戰略合作伙伴,提供企業(yè)級可靠、開(kāi)放、高性能的方案和專(zhuān)業(yè)服務(wù)至關(guān)重要。由于對EasyStack專(zhuān)業(yè)性的認可,清華大學(xué)交叉信息研究院選擇了與其共建OpenStack產(chǎn)學(xué)研云平臺。
需求與方案設計
清華交叉學(xué)院的數據中心,根據現有服務(wù)器硬件基礎上,設計合理的云平臺方案,配備網(wǎng)卡/SSD/SATA盤(pán)等,達到OpenStack的硬件配置要求,利用暑假的一周停機時(shí)間,完成OpenStack產(chǎn)學(xué)研云平臺的部署上線(xiàn)。
-- HA
OpenStack作為清華大學(xué)內部的公有云平臺,首期規模為125個(gè)物理節點(diǎn),綜合集群規模和訪(fǎng)問(wèn)負載情況,控制節點(diǎn)采用5節點(diǎn)高可用方案。未來(lái)根據使用情況,可隨時(shí)增擴。通過(guò)使用集群/主備/負載均衡等HA方式,對MySQL/Message Queue/API服務(wù)/Web訪(fǎng)問(wèn)等服務(wù)配置全方位高可用方案。
-- 存儲
通過(guò)對OpenStack各服務(wù)的改進(jìn)增強,Nova/Glance/Cinder統一使用Ceph RBD作為后端存儲,實(shí)現云主機/快照/云硬盤(pán)等云資源的秒級獲取。Ceph存儲集群設置三副本,保證數據的高可用性。為充分利用物理機資源,在計算節點(diǎn)增加SSD/SATA盤(pán)和萬(wàn)兆網(wǎng)卡,采用存儲與計算融合方式,并通過(guò)Cgroup/taskset等手段對計算和存儲進(jìn)程進(jìn)行資源隔離,保證計算和存儲性能穩定可靠,互不干擾。
-- 網(wǎng)絡(luò )
使用VLAN+OVS方式配置網(wǎng)絡(luò ),合理分配不同網(wǎng)絡(luò )平面的流量,并為生產(chǎn)網(wǎng)絡(luò )預留足夠的VLAN ID范圍,方便眾多老師和學(xué)生搭建自己的私有網(wǎng)絡(luò )。L3 agent將負載均分到五個(gè)控制節點(diǎn)上,在單個(gè)L3失效的情況下,其上的配置會(huì )自動(dòng)reschedule到其他節點(diǎn),最大程度減少網(wǎng)絡(luò )中斷,并可根據需要對南北向和東西向網(wǎng)絡(luò )流量進(jìn)行合理限速。
-- 賬號管理
OpenStack集群部署完畢之后,通過(guò)對Keystone配置文件的調整來(lái)對接LDAP,LDAP所有用戶(hù)將呈現在OpenStack的用戶(hù)列表中。再通過(guò)對現有LDAP用戶(hù)權限的調整,用戶(hù)登錄后將呈現所在權限級別的訪(fǎng)問(wèn)界面。新創(chuàng )建的LDAP用戶(hù)將通過(guò)OpenStack聯(lián)動(dòng)腳本,帳號創(chuàng )建完畢即可登錄云平臺訪(fǎng)問(wèn)。在LDAP中通過(guò)分組來(lái)區分不同的院系,每個(gè)院系將指定一位“企業(yè)”管理員,管理他所在院系的用戶(hù)/項目/計費等。
-- 計費
通過(guò)對Ceilometer的增強,計費系統實(shí)現對云資源的秒級精確計費。配合分級帳號管理系統,每個(gè)院系作為一個(gè)單獨的計費單位進(jìn)行收費。計費價(jià)格可以由云管理員隨時(shí)調整,并在指定的日期生效。通過(guò)支付寶等在線(xiàn)支付方式可以隨時(shí)為本院系充值。
-- 節點(diǎn)部署方案
清華大學(xué)遇見(jiàn)OpenStack
通過(guò)合理分配網(wǎng)絡(luò )平面的流量,將不同網(wǎng)絡(luò )的訪(fǎng)問(wèn)進(jìn)行隔離,保證網(wǎng)絡(luò )訪(fǎng)問(wèn)通暢。其中,計算與存儲融合的節點(diǎn)上,兩個(gè)萬(wàn)兆網(wǎng)口做Load Balance綁定,提升網(wǎng)絡(luò )吞吐量,保證Ceph副本的快速寫(xiě)入。
部署
-- 虛擬機備份/恢復
在實(shí)施之前,通過(guò)Ansible自動(dòng)化工具,在現有集群的物理節點(diǎn)上將虛擬機并行備份。利用本地磁盤(pán)作為虛擬機備份的快速周轉空間,并在遠端保留副本。新集群部署完畢之后,再將虛擬機恢復到對應的用戶(hù)賬號下。通過(guò)自動(dòng)化腳本批量將虛擬機鏡像直接傳入Ceph集群中,極大縮短導入時(shí)間,再將權限屬性匹配原有賬戶(hù),用戶(hù)登陸后即可使用虛擬機鏡像恢復原有的云主機了。
-- 磁盤(pán)分布
將SSD盤(pán)作為大容量SATA盤(pán)的Ceph OSD日志盤(pán),大幅提升Ceph集群的IO性能,支撐Hadoop/Spark等應用對高性能的要求。
-- 網(wǎng)絡(luò )
按照網(wǎng)絡(luò )規劃,在交換機上設置VLAN以對應不同網(wǎng)絡(luò )平面。同時(shí),在路由器和防火墻上設置網(wǎng)絡(luò )地址映射,對外公開(kāi)OpenStack集群的Web訪(fǎng)問(wèn)。 Ceph cluster網(wǎng)絡(luò )使用Load Balance方式,綁定兩個(gè)萬(wàn)兆網(wǎng)卡,實(shí)現Ceph副本數據的快速傳輸。
-- 資源管理
大規模集群的部署涉及到資產(chǎn)管理的問(wèn)題,所有物理機機器均已登記在冊,并在機架的固定位置標號。EasyStack的安裝工具Roller為指定MAC地址分配IP,保證新集群部署完畢之后與現有資產(chǎn)表保持完全一致。后期運維同樣可以使用Roller靈活擴展集群規模。
-- 權限管理
OpenStack實(shí)現三層分級賬戶(hù)權限管理, ESCloud為不同權限級別的用戶(hù)呈現不同的導航界面,admin云管理員管理整個(gè)OpenStack集群,每個(gè)學(xué)院將有各自獨立的“企業(yè)”管理員管理自己學(xué)院的老師/學(xué)生對云資源的申請及日常運維工作,普通用戶(hù)申請云平臺的各項云資源。
運維
-- 監控
為集群定制監控項目,通過(guò)直觀(guān)的Web dashboard,查看集群各項指標的當前及歷史運行狀態(tài)。設置異常告警閾值,即時(shí)通知管理員,修復異常狀況。通過(guò)各項數據的規律提前判斷是否需要擴容等。
-- 帳號
ESCloud除支持本地創(chuàng )建用戶(hù)之外,全面支持與AD/LDAP的對接。在清華項目中,OpenStack對接LDAP帳號管理系統,并與OpenStack聯(lián)動(dòng)。創(chuàng )建LDAP賬戶(hù)時(shí),自動(dòng)為賬戶(hù)創(chuàng )建OpenStack項目和網(wǎng)絡(luò ),新建的LDAP賬戶(hù)可以即刻登陸集群使用云服務(wù)。
-- Log集中管理
集群各物理節點(diǎn)中的日志數據通過(guò)rsyslog遠程集中存儲,方便日志分析。
-- 公告欄
云系統管理員具有權限發(fā)布公告,公告內容將發(fā)布在云平臺登陸首頁(yè),方便對所有用戶(hù)廣播消息。
-- QoS
根據使用情況對云主機/云硬盤(pán)進(jìn)行訪(fǎng)問(wèn)限速,合理分配集群資源。對南北/東西向網(wǎng)絡(luò )流量合理配置帶寬限制。
-- 對集群中的MySQL/Message Queue跟蹤
所有對集群的MySQL數據的操作都將出發(fā)新建一個(gè)數據項目,并在RabbitMQ添加跟蹤項目,通過(guò)對這些收集的數據進(jìn)行整理分析,可以通過(guò)圖形化的方式展現現有集群的狀態(tài),并動(dòng)態(tài)檢測/定位集群出現的問(wèn)題。
項目特點(diǎn)
-- 高可用
通過(guò)HA以及EasyStack ESCloud云平臺的高可靠設計等方案的實(shí)施使之區別并領(lǐng)先于其它OpenStack發(fā)行版,可用于承載核心業(yè)務(wù)的中大規模云計算環(huán)境,輕松應對業(yè)務(wù)挑戰。
-- 開(kāi)放兼容利舊
ESCloud云管理平臺具有極高的開(kāi)放性,屏蔽底層不同品牌,讓學(xué)院擁有大量舊有基礎設施,能夠充分的利用起來(lái)。
-- 性能優(yōu)化
EasyStack的ESCloud平臺深入優(yōu)化計算、存儲以及網(wǎng)絡(luò )性能,從KVM、OVS、CEPH等最底層技術(shù)開(kāi)始源代碼級優(yōu)化,最終提供接近物理硬件能力的計算、存儲和網(wǎng)絡(luò )性能,為該項目的Hadoop、Spark、Docker、入侵檢測等研究課題提供高性能服務(wù),勝任科研需求。
-- 多層權限管理
運維上,ESCloud提供了三層權限管理,各個(gè)課題項目組或者其它院系可以按照實(shí)際需求再行分配和管理資源,配合精細化計費功能,大大降低了學(xué)院的運維成本。
最終,清華大學(xué)交叉信息研究院的OpenStack產(chǎn)學(xué)研云平臺項目的單個(gè)集群規模達到6000個(gè)Core,16TB存儲,540TB存儲的規模,是國內最大規模的產(chǎn)學(xué)研一體化OpenStack云平臺。
同時(shí),這一項目讓清華大學(xué)交叉信息研究院的數據中心采購成本降低60%,例行IT管理任務(wù)所花時(shí)間減少33%,能源成本降低80%。
結語(yǔ)
“EasyStack幫助學(xué)院采用ESCloud全開(kāi)源云計算解決方案搭建了國內高校最大規模的產(chǎn)學(xué)研一體化OpenStack云環(huán)境,投產(chǎn)后主要用于大數據分析、分布式系統的教學(xué)科研,以及為其他院系提供付費云服務(wù),不僅降低了采購和運維成本,更讓學(xué)校內有限的人員力量投入到更有價(jià)值的科研項目之中!” 清華大學(xué)交叉信息研究院助理院長(cháng)徐葳表示。