在8月11日的《智享云未來(lái) 2017云計算技術(shù)與應用高峰論壇》上,烽火云計算資深專(zhuān)家趙銳為大家帶來(lái)了《政務(wù)云智能化之路》的主題演講。趙銳在演講中提到,在湖北省楚天云的建設中,烽火自研的FitOS虛擬機高可用解決方案(HA-Stack)為保證關(guān)鍵業(yè)務(wù)連續性提供了重要技術(shù)支撐。另外,烽火HA-Stack解決方案還在近期榮獲了2017可信云大會(huì )“年度技術(shù)創(chuàng )新獎”,受到了業(yè)界的高度認可。

作為大型政務(wù)云的典型代表,楚天云是“智慧湖北”的龍頭工程,是國內第一個(gè)貫通國家、省、市、縣四級的數據交換及共享平臺,也是國內第一個(gè)采用OpenStack開(kāi)源架構為基礎的省級政務(wù)云平臺。目前,楚天云在現有基礎設施及全省統一的政務(wù)網(wǎng)絡(luò )體系基礎之上,上聯(lián)國家電子政務(wù)外網(wǎng),橫聯(lián)104個(gè)廳局委辦,下聯(lián)17個(gè)地市州政務(wù)外網(wǎng),打破部門(mén)壁壘、區域分割,變“信息孤島”為“信息樞紐”,實(shí)現全省范圍內的數據共享互通。
基于楚天云的戰略地位及重要功能,如何保證楚天云業(yè)務(wù)連續運行就成為了最基礎而又最重要的工作。在楚天云規劃早期,烽火基于 FitCloud云網(wǎng)一體化解決方案提出了創(chuàng )新的建設思路。其中,烽火FitOS云操作系統做為FitCloud的核心產(chǎn)品,基于OpenStack組件進(jìn)行深度優(yōu)化及二次開(kāi)發(fā),在原生的基礎上,增加虛擬機HA解決方案,通過(guò)采用分布式鎖的防腦裂技術(shù),在OpenStack外新增組件來(lái)實(shí)現主機和虛擬機故障場(chǎng)景下的虛擬機高可用。
在傳統場(chǎng)景中,由故障檢測不準確導致的主備虛機“腦裂”現象時(shí)常發(fā)生,在雙機熱備高可用(HA)系統中,當聯(lián)系兩個(gè)節點(diǎn)的“心跳線(xiàn)”斷開(kāi)時(shí), 節點(diǎn)上的HA軟件像“裂腦人”一樣,本能地爭搶“共享資源”、爭起“應用服務(wù)”,就會(huì )導致共享資源被瓜分、兩邊“服務(wù)”都起不來(lái),或者兩邊“服務(wù)”都起來(lái)了,但同時(shí)讀寫(xiě)“共享存儲”,最終導致數據損壞;另外,以往依賴(lài)IPMI來(lái)監測主機下電,當狀態(tài)Off時(shí),通過(guò)疏散虛擬機的接口(底層調用的Rebuild接口)來(lái)進(jìn)行虛擬機HA重建,但無(wú)法解決主機掉電的場(chǎng)景,導致的數據面、業(yè)務(wù)面中斷也無(wú)法解決。
為避免楚天云在運行中出現傳統故障場(chǎng)景,烽火FitOS虛擬機高可用解決方案中的防 “腦裂”方案基于分布式文件系統提供存儲資源,底層使用SanLock鎖提供防腦裂保護,保證磁盤(pán)同時(shí)只能有一處寫(xiě)入;此外,上層基于自研HA-Stack+Consul提供基于管理、存儲、業(yè)務(wù)網(wǎng)絡(luò )多平面探測,支持HA策略矩陣配置,基于QGA提供虛擬機內部異常檢測(藍屏、死機、業(yè)務(wù)網(wǎng)絡(luò )中斷等),同時(shí)超半數主機故障后,服務(wù)自動(dòng)停止,防止故障擴散,當所有主機恢復后,服務(wù)將自動(dòng)恢復。
除政務(wù)行業(yè)外,烽火云計算正同時(shí)在交通、教育、醫療等重點(diǎn)行業(yè)持續發(fā)力,并將基于用戶(hù)場(chǎng)景提高云計算產(chǎn)品及解決方案中的智能化要素,幫助用戶(hù)完成智能化的IT建設及業(yè)務(wù)運營(yíng),使得烽火成為具有持續創(chuàng )新性及競爭力的智慧城市建設領(lǐng)導者。