目前互聯(lián)網(wǎng)技術(shù)越來(lái)越發(fā)達,越來(lái)越多的企業(yè)開(kāi)始擁抱開(kāi)源,無(wú)論是成本還是易用性上開(kāi)源都表現不俗。但是作為傳統企業(yè)的IT負責人,到底該如何選擇監控工具呢?從哪些方面考慮呢?
問(wèn)題來(lái)自@chinesezzqiang 某制造企業(yè) 信息技術(shù)經(jīng)理,下文來(lái)自twt社區眾多同行實(shí)踐經(jīng)驗分享,歡迎大家參與交流,各抒己見(jiàn)。
@潘延晟 系統工程師:
原來(lái)接觸的鋼鐵企業(yè)在信息化方面的投入不足,資金一直都用在硬件的投入上,所以對于系統的監控我們都是采用了開(kāi)源或者是非常規手段的軟件來(lái)實(shí)現業(yè)務(wù)的監控功能。我們是通過(guò)CACTI進(jìn)行網(wǎng)絡(luò )流量的監控,并生成網(wǎng)絡(luò )流量拓撲圖,通過(guò)hostmonitor進(jìn)行業(yè)務(wù)的自動(dòng)巡檢和部分關(guān)鍵設備的性能監控,并通過(guò)郵件推送實(shí)現手機的自動(dòng)報警。基本上通過(guò)免費的方式實(shí)現了業(yè)務(wù)自動(dòng)巡檢、報警、數據流量的實(shí)時(shí)監控。
對于傳統企業(yè),我覺(jué)得觀(guān)念是最大的問(wèn)題。我接觸過(guò)很多管理者都認為信息化的投入太多,不值得,難得有點(diǎn)投入都用在了硬件上。對于網(wǎng)絡(luò )安全、數據備份、還有業(yè)務(wù)監控、自動(dòng)運維這些方面,態(tài)度都像買(mǎi)保險一樣,結果都是苦的運維人。
@鄧毓 江西農信 系統工程師:
就開(kāi)源監控而言,Zabbix是非常好的選擇,靈活性上、全面性上都無(wú)可挑剔,也是很成熟的產(chǎn)品,但前提是你能吃透它,具備二次開(kāi)發(fā)的能力,后續通過(guò)自身技術(shù)和社區資料支撐運維和更新。而商業(yè)監控相比較而言,對自身技術(shù)要求就低很多,有廠(chǎng)商支撐和運維,項目周期短,但靈活性上就要弱些,主要還是要把握好選型。
@sz 系統運維工程師:
我覺(jué)得開(kāi)源的產(chǎn)品還是需要做定制化才能滿(mǎn)足企業(yè)需求。
@Tomato1616 某城商銀行 系統架構師:
如果維護的信息系統重要,我認為即使選擇開(kāi)源監控產(chǎn)品,最好也購買(mǎi)一定的服務(wù),以便設計合理的架構,減少實(shí)施周期。
@anonym 系統工程師:
zabbix,免費開(kāi)源,功能強大。
@jason2006xu 昆侖銀行 技術(shù)經(jīng)理:
目前市場(chǎng)上主流監控產(chǎn)品功能大同小異,但是要選擇好的監控工具應該從以下幾個(gè)非功能需求方面選擇:
- 成熟度和穩定性,監控系統本來(lái)是用來(lái)管理相對不穩定的系統,打鐵還需自身硬,所以穩定性和程度度是企業(yè)選擇監控系統最先要考慮的一點(diǎn)。
- 高性能,對于大型企業(yè),被管對象多(超過(guò)1萬(wàn))時(shí),入庫時(shí)效率是否高。
- 可擴展性,企業(yè)網(wǎng)絡(luò )環(huán)境復雜,機構多,所以可擴展性也是要考慮的點(diǎn)。
- 二次開(kāi)發(fā)支持程度,如果提供API可以方便定制開(kāi)發(fā),以便運維人員使用。
- 接口開(kāi)放程度,如跟CMDB、ITIL集成,對CMDB、ITIL是否開(kāi)放接口。
- 部署復雜度,如果大型企業(yè)上萬(wàn)臺主機、如何部署代理。
- 售后支持度、社區是否活躍,如果系統故障,是否有專(zhuān)家支持,是否有強大團隊支持。
其次應該從以下幾個(gè)功能需求方面考慮:
- 是否支持傳統架構監控,如操作系統、數據庫、中間件、網(wǎng)絡(luò )、存儲
- 是否支持開(kāi)源軟件如MySQL、PGSQL、MoogDB、Kafka
- 是否支持虛擬化,VMware、KVM
- 是否支持容器:Docker
- 是否支持K8S
綜上所述,傳統架構可以考慮Zabbix,云環(huán)境、容器、K8S監控等可以考慮Prometheus。
@hufeng719 某鋼鐵企業(yè) 系統工程師:
從成本、功能、安全、穩定、便于維護和二次開(kāi)發(fā)方面考慮選擇的監控工具。可以找幾個(gè)多嘗試,包括監控畫(huà)面的美感度等等,這個(gè)都是根據自身愛(ài)好選擇。
@山雞 某保險:
個(gè)人觀(guān)點(diǎn):
主要還是看規模吧,如果規模不大, Zabbix足夠應付了,目前來(lái)說(shuō)其社區的支持力度還是很不錯的,各種模板都已經(jīng)有了, 而且網(wǎng)上各種資料也是比較多的,還有就是跟服務(wù)器的配置, 以及Zabbix日常維護這塊 也有一定關(guān)系 ,我上家公司也算是屬于傳統行業(yè)吧,用的就是Zabbix。
自己之前略微研究了下,Prometheus,個(gè)人感覺(jué)還是很不錯的,也可以考慮。下圖是各種工具對比,來(lái)源網(wǎng)絡(luò ),僅供參考。

@nameless 某云計算廠(chǎng)商 技術(shù)總監:
可以從幾個(gè)維度考慮:
- 開(kāi)源監控工具是否滿(mǎn)足自己IT需求,如果不滿(mǎn)足,是否有二次開(kāi)發(fā)能力等;
- 開(kāi)源監控工具是否成熟,軟件的穩定性、可靠性,社區發(fā)展情況,文檔資料是否齊全等等;
- 結合自身運維能力,能否hold住該監控工具,該監控工作開(kāi)發(fā)語(yǔ)言是否和自身IT主語(yǔ)言一致,遇到代碼級問(wèn)題能否及時(shí)修復等;
- 可以關(guān)注下該監控工具的發(fā)展趨勢,比如cloud監控是否具備,微服務(wù)監控能力等等;
目前常用的監控工具有nagios、zenoss、Zabbix、openfalcon、Prometheus等,個(gè)人建議prometheus。比較新,功能強大,對cloud監控友好,其他監控工具傳統主機、網(wǎng)絡(luò )監控好。
@guoxilin 某科技公司 系統測試工程師:
Zabbix確實(shí)是比較好的監控工具候選項,它具備常見(jiàn)的商業(yè)監控軟件所具備的功能。比如主機的性能監控、硬件監控、應用性能監控(APM)、網(wǎng)絡(luò )設備性能監控、數據庫性能監控、FTP等通用協(xié)議監控、多種告警方式、詳細的報表圖表繪制;支持自動(dòng)發(fā)現網(wǎng)絡(luò )設備和服務(wù)器,支持分布式部署,集中展示和管理分布式的監控點(diǎn);具備很強的擴展性,并且提供通用接口,可以按需開(kāi)發(fā)定制各類(lèi)監控。
@Zabbix大叔_樂(lè )維 廣州九一樂(lè )維信息科技有限公司 研發(fā)工程師:
Zabbix原生用得好其實(shí)不錯,能解決40%左右的問(wèn)題,對于中小組織差不多了;大型組織如果需要做到80、90分,就需要深度開(kāi)發(fā)了。
@大大覺(jué)迷 通鋼 網(wǎng)絡(luò )工程師:
我覺(jué)得監控軟件界面要簡(jiǎn)單直觀(guān)清晰實(shí)用,看了社區一些大神的文章準備著(zhù)手研究一下Zabbix。來(lái)源:twt社區