本期專家：

　　姚彬優(yōu)維科技系統(tǒng)架構(gòu)師

　　林鋒浪潮商用機器企業(yè)云創(chuàng)新中心華南區(qū)技術(shù)總監(jiān)

　　任龍飛紅帽企業(yè)級開源解決方案中心解決方案架構(gòu)師

　　景顯強紅帽企業(yè)級開源解決方案中心軟件架構(gòu)設(shè)計師

　　劉康日志易系統(tǒng)分析師

　　鐘錦鋅 SmartX超融合產(chǎn)品經(jīng)理

　　李寧博云企業(yè)級PaaS及云管理解決方案中心高級架構(gòu)師

　　01 如何評估自動化運維帶來的收益？

　　@姚彬優(yōu)維科技系統(tǒng)架構(gòu)師：

　　運維核心職責(zé)是保證業(yè)務(wù)連續(xù)性，通常是花錢部門，建議量化圍繞這兩個方向：

　　1.業(yè)務(wù)：參考DevOps中四個核心指標，變更時長、發(fā)布頻率、服務(wù)恢復(fù)時長、變更失敗率。

　　2.投入：運維投入和業(yè)務(wù)量增長的長期曲線對比，短期不一定明顯。（資金、人員等）

　　02 運維自動化的成功標志是什么？

　　@姚彬優(yōu)維科技系統(tǒng)架構(gòu)師：

　　自動化的基石是標準化，運維自動化最直接的收益是效率和質(zhì)量的提升，工具化處理運維事物就是成功。

　　03 如何利用大數(shù)據(jù)提升云平臺自動化運維管理能力？

　　@林鋒浪潮商用機器企業(yè)云創(chuàng)新中心華南區(qū)技術(shù)總監(jiān)：

　　有同事在排查一些云平臺的問題過程中，就碰到過日志極為瑣碎，出現(xiàn)了大量日常信息將故障關(guān)鍵信息掩蓋的過程，在日常維護、故障排查過程中，如何在大量日志中快速地找到故障關(guān)鍵字是個涉及大數(shù)據(jù)、人工智能的領(lǐng)域，這方面確實有待加強。

　　個人理解，利用大數(shù)據(jù)技術(shù)+人工智能，過濾日常常規(guī)信息應(yīng)該是容易做到，而不常出現(xiàn)的信息應(yīng)該是我們?nèi)粘＞S護的關(guān)注點。目前業(yè)內(nèi)已經(jīng)有多家從事智能運維的公司，可以提供支持Power、x86等多種異構(gòu)云環(huán)境的智能運維平臺。

　　04 如何構(gòu)建云計算場景下的自動化運維系統(tǒng)？

　　@任龍飛紅帽企業(yè)級開源解決方案中心解決方案架構(gòu)師：

　　個人觀點，從現(xiàn)在的IT體系來看，從IaaS到SaaS, ansible工具已經(jīng)可以覆蓋大多數(shù)場景。今年RedHat/CoreOS開源了Operator framework，針對容器領(lǐng)域的運維開發(fā)框架，值得關(guān)注。

　　05 企業(yè)在控制風(fēng)險這塊應(yīng)該如何控制自動化運維與人為干涉的優(yōu)先級？

　　@景顯強紅帽企業(yè)級開源解決方案中心軟件架構(gòu)設(shè)計師：

　　腳本（playbook）自身的安全可靠性，需要進行生產(chǎn)前的反復(fù)驗證。

　　上生產(chǎn)后，盡量依靠ansible tower這樣的管理平臺進行ansible的執(zhí)行，防止權(quán)限不匹配導(dǎo)致執(zhí)行錯誤。

　　06 面對應(yīng)用與應(yīng)用之間復(fù)雜的依賴和調(diào)用關(guān)系，如何快速定位排查問題？

　　@劉康日志易系統(tǒng)分析師：

　　這個問題我們先倒推一下：

　　分析問題需要什么？

　　分析問題問題肯定需要一些指標和數(shù)據(jù)，那么指標和數(shù)據(jù)該是哪些東西呢？指標和數(shù)據(jù)從哪里來呢？

　　指標肯定有系統(tǒng)層面也會有應(yīng)用層面。但是通過指標一定能分析出問題嗎？不一定，萬一開發(fā)就想寫個bug玩呢？所以也得看下應(yīng)用的日志。

　　如果需要分析依賴和調(diào)用，那就得下探針或者在日志中打出調(diào)用關(guān)系。

　　知道了需要哪些東西該怎么收集呢？

　　我們既要收集系統(tǒng)指標，又要收集應(yīng)用指標，還需要收集應(yīng)用日志。在進行收集的時候我們不想消耗太多的資源。

　　收集完成怎么分析呢？

　　如果有了上面的數(shù)據(jù)只需要將我們的內(nèi)容進行適當?shù)奶崛【涂梢赃M行串聯(lián)分析。比如：

　　我通過日志發(fā)現(xiàn)在某一點交易失敗率高了，我只需要看一看此時系統(tǒng)層面的各個指標是否正常就可以迅速判斷出是否系統(tǒng)層面影響。再接著我們只需要看看這個鏈路上的其他內(nèi)容各個指標是否正常，可以快速判斷是哪個環(huán)節(jié)出問題。

　　上面進行完成了之后，再接著分析應(yīng)用的問題，看一眼應(yīng)用的運行指標情況，再看看日志，幾乎在一分鐘內(nèi)就可以判斷故障出現(xiàn)在哪里。

　　甚至在進一步可以做出實時告警。

　　上面那個方式在分布式環(huán)節(jié)尤其好使，因為運維人員不用去尋找是那一臺主機上的程序出現(xiàn)了問題。

　　上面所說的分析方式有哪些軟件呢？

　　開源的：ELK

　　企業(yè)版：日志易、splunk

　　ELK：開源，免費，但是需要較高的能力去維護（如果說日志量每天幾個G那種忽略），DSL語句需要有一定的學(xué)習(xí)能力，搜索較慢。

　　日志易：操作簡單，語句就是類SQL。

　　splunk：美國的日志分析廠商。

　　07 在運維管理上，超融合架構(gòu)的優(yōu)勢是什么？在超融合環(huán)境下，運維工作與傳統(tǒng)架構(gòu)有什么不同？

　　@鐘錦鋅 SmartX超融合產(chǎn)品經(jīng)理：

　　超融合架構(gòu)在運維管理上的優(yōu)勢：

超融合省卻了原來集中式存儲的硬件管理以及 raid、mapping 等復(fù)雜的管理操作。
超融合硬件故障運維更加簡單，硬盤故障無需熱備盤情況下，也可以自動恢復(fù)，而且恢復(fù)速度遠高于傳統(tǒng)存儲。
虛擬化和存儲以及硬件管理都集中在統(tǒng)一界面上，管理員可以很輕松地發(fā)現(xiàn)各個組件的運行狀態(tài)。
在線擴展，自動負載均衡功能，比起傳統(tǒng)架構(gòu)擴容，減少了大量數(shù)據(jù)遷移甚至是避免了停機時間。
可以設(shè)置郵件報警或者通過 SNMP 還有 restful api 與原有的監(jiān)控中心進行對接，實現(xiàn)智能監(jiān)控管理。

　　在超融合環(huán)境下，運維工作的安排確實與傳統(tǒng)架構(gòu)有所不同：

　　1、在傳統(tǒng)架構(gòu)下，很多企業(yè)會安排專門的存儲管理員、虛擬化管理員；而在超融合環(huán)境下這兩者已經(jīng)合為一體，存儲和虛擬化實現(xiàn)統(tǒng)一界面管理，也省卻了原來集中式存儲硬件較為復(fù)雜的管理和運維。建議運維工作安排可以將存儲管理員和虛擬化管理員合并管理。

　　2、另外做得比較好的超融合平臺都有功能豐富的監(jiān)控分析系統(tǒng)，并且可以支持通過 SNMP 或者 API 集成到第三方監(jiān)控平臺中進行統(tǒng)一管理以及自動報警等，這樣可以更有效地提升運維管理水平。

　　08 Docker的運維中需要關(guān)注的是什么？

　　@李寧博云企業(yè)級PaaS及云管理解決方案中心軟件架構(gòu)設(shè)計師：

　　Docker運維過程中，整體而言需要關(guān)注三個方面：

Docker集群的部署規(guī)模；按照目前來講，針對大規(guī)模的Docker集群，需要上層的調(diào)度系統(tǒng)做進一步的管理（例如基于Kubernetes或者swarm），而且只有達到一定規(guī)模以后，才會重點關(guān)注配置優(yōu)化的參數(shù)（例如內(nèi)部IP分配問題，單個容器的資源消耗限制等）；
Docker運行環(huán)境的穩(wěn)定性，安全性，可靠性；需要做到Docker管理與運行業(yè)務(wù)容器達到友好兼容，管理節(jié)點正常與否，不應(yīng)該影響運行業(yè)務(wù)容器，保證業(yè)務(wù)的正常對外輸出；考慮業(yè)務(wù)容器彼此的隔離性，防止安全入侵；Docker與監(jiān)控告警系統(tǒng)，日志系統(tǒng)的對接和管理，能夠及時發(fā)現(xiàn)并處理運行過程中的問題。
保證業(yè)務(wù)容器的正常穩(wěn)定，因為所有的一切都是為業(yè)務(wù)服務(wù)的，業(yè)務(wù)正常穩(wěn)定，才有意義。

　　歡迎企業(yè)IT領(lǐng)域原廠商入駐云社區(qū)。服務(wù)用戶，從解決用戶的日常問題入手！來源：tlalkwithtrend