作為全球領(lǐng)先的云計算服務(wù)商,華為云提供兩大運維服務(wù)——應用運維管理(AOM)和應用性能管理(APM)服務(wù),實(shí)現復雜云應用的端到端性能洞察。華為云應用運維投入持續研發(fā),在智能AutoScaling、Serverless的調用跟蹤、基于A(yíng)I的異常檢測和RCA分析、基于Clustering的Blackbox分析等方面進(jìn)行了創(chuàng )新性探索并取得長(cháng)足的進(jìn)展,增強了大規模云應用的智能運維(AIOps)能力。

華為云應用運維域首席架構師現場(chǎng)分享
關(guān)于“華為三位一體探索AIOps關(guān)鍵技術(shù)的實(shí)踐”的演講
大規模K8S容器集群的管控
華為已經(jīng)在試驗環(huán)境中成功驗證了百萬(wàn)容器級別的管控。由于容器集群的計算資源異構、網(wǎng)絡(luò )虛擬化、集群類(lèi)型多樣、秒級擴縮容等導致的復雜性,以及客戶(hù)應用技術(shù)棧的多樣性(比如微服務(wù)化、Serverless化、基礎組件服務(wù)化)導致的復雜性,對管控提出了兩方面的要求:一是滿(mǎn)足平臺自身的OM運維;另外一方面要滿(mǎn)足部署在平臺上的客戶(hù)應用系統的運維訴求。華為云應用運維域針對性設計實(shí)現了應用及資源模型化---Inventory建模,實(shí)現了傳統意義上的CMDB和OSLC的能力,把基礎設施和應用映射起來(lái),為跨資源、跨層面的關(guān)聯(lián)提供了現實(shí)可能。
容器彈性伸縮Auto-Scaling的決策來(lái)自華為云運維服務(wù),除了預定義的scaling外,還實(shí)現了機器學(xué)習算法的Auto-Scaling,為復雜的大規模應用提供更智能的選擇,最大化節省客戶(hù)資源成本開(kāi)銷(xiāo)。
除了上述兩點(diǎn),華為云應用性能管理(APM)和應用運維管理(AOM)還實(shí)現了開(kāi)箱即用的性能數據采集、在線(xiàn)感知和計算、異常告警、應用拓撲、調用鏈分析等功能,結合華為云性能測試服務(wù)(CPTS)、大數據智能分析等生態(tài)服務(wù),實(shí)現對應用運維的端到端性能洞察。良好的云原生分布式架構成功解決了海量數據、大規模應用部署帶來(lái)性能下降的挑戰。


大規模容器應用管控 — 支撐工具及生態(tài)環(huán)境
Serverless環(huán)境中因果序列追蹤
Serverless使得開(kāi)發(fā)者無(wú)需關(guān)注基礎設施,只用聚焦業(yè)務(wù)邏輯并進(jìn)行簡(jiǎn)單部署就可以完成,提供了快捷的開(kāi)發(fā)方式。這也意味著(zhù)APM for Serverless是一個(gè)全新的子領(lǐng)域,需要一種針對性的應用性能跟蹤、評估的機制。華為云聯(lián)合美國加州大學(xué)教授,對Serverless場(chǎng)景進(jìn)行深入研究,采用Go語(yǔ)言,對分布式日志記錄系統Chariots的理論進(jìn)行了實(shí)現和擴展:GoChariots。它本質(zhì)上是在logging之前通過(guò)隊列排序,按照因果順序(Causal Order)依次追加日志記錄。
通過(guò)為Serverless和微服務(wù)云應用程序提供因果順序跟蹤,并且可以跨云(不與特定云服務(wù)商綁定)。它可以以復制模式運行,因此跨數據中心應用程序可以與最近的副本進(jìn)行通信,大大降低了通信開(kāi)銷(xiāo),提高了可用性和進(jìn)度。由于SDK使用HTTP POST將事件發(fā)送到后端,因此對function的開(kāi)發(fā)語(yǔ)言沒(méi)有約束。
另外,結合AWS Lambda環(huán)境,華為云開(kāi)發(fā)了GammaRay,基于第三方開(kāi)源AWS Instrument SDK for Python(Fleece)庫埋點(diǎn),驗證了Causal Order Tracking(COT)理論。GammaRay是對X-Ray的擴展,只適用于A(yíng)WS Lambda調用關(guān)系分析。
(具體細節參考華為在IC2E的full paper: Tracking Causal Order in AWS Lambda Applications。)
多源數據的RCA分析探索
根因分析RCA已經(jīng)是個(gè)老話(huà)題了,單點(diǎn)技術(shù)不斷進(jìn)步完善、積累和突破,但仍然是森林中的“樹(shù)”,為了避免盲人摸象的問(wèn)題,必須進(jìn)行全面的分析。
一個(gè)復雜系統中,一旦故障的發(fā)生會(huì )引起連鎖反應,直接體現就是故障的傳導鏈。在此場(chǎng)景中,首先要解決異常檢測(anomaly detection);其次要解決問(wèn)題的定界定位(RCA:root cause analysis)。針對異常檢測,除了傳統靜態(tài)閾值比較,華為云還開(kāi)發(fā)了基于時(shí)序數據分析的動(dòng)態(tài)閾值,典型的有ARIMA算法等。大部分情況下,利用APM的應用拓撲、事務(wù)分析就能發(fā)現性能瓶頸或者問(wèn)題。為了更全面的分析,華為云聯(lián)合歐美大學(xué)教授和華為海外專(zhuān)家一起利用ML對調用鏈數據做了深層次的數據分析。如在多個(gè)時(shí)序變量預測的單一事件場(chǎng)景中,采用了隱馬爾科夫模型(HMM:Hidden Markov Model),在工程實(shí)現中結合APM中的Inventory數據、拓撲數據和調用鏈數據來(lái)確定事件依賴(lài)關(guān)系,從而發(fā)現故障傳導鏈。當前我們還在合作研究驗證無(wú)監督機器學(xué)習應用在日志、指標的實(shí)時(shí)Stream關(guān)聯(lián)分析與預警。
聚類(lèi)算法實(shí)現網(wǎng)絡(luò )包的Blackbox分析
在業(yè)務(wù)通用的兩種主流分布式追蹤技術(shù)采集方案代碼侵入式埋點(diǎn)和非侵入式探針外,華為云開(kāi)發(fā)一種全新的用非侵入式方法來(lái)實(shí)現調用拓撲級別的分析。數據采集工具vProbe支持識主流的應用協(xié)議,通過(guò)旁路監聽(tīng)網(wǎng)絡(luò )獲得數據。數據只涉及基礎的性能數據,不涉及業(yè)務(wù)或者隱私方面的數據(必要時(shí)采取數據脫敏措施)。
在BlackBox分析研究中,學(xué)術(shù)界有很多研究,但是其工程實(shí)現遠遠滿(mǎn)足不了產(chǎn)品級別要求。華為云不斷嘗試創(chuàng )新方法,經(jīng)過(guò)理論分析和原型推導驗證,最后利用Hierarchical Clustering實(shí)現了服務(wù)之間的因果路徑推導,準確率基本達到了90~95%以上,與基于Whitebox方法得到的應用拓撲基本一致,區別在于不能做到單一transaction的性能追蹤,但對整個(gè)應用的性能態(tài)勢感知和瓶頸識別已經(jīng)完全可以滿(mǎn)足問(wèn)題的及時(shí)告警和定界定位。
我們相信云計算及其應用運維,單純的人海戰術(shù)已經(jīng)失靈,而DevOps、AIOps和NoOps是必然選擇。此路漫漫其修遠兮,同道攜手上下求索……
長(cháng)按二維碼即可免費體驗
華為云應用運維APM服務(wù)~
