據(jù)報道，近日，由于中國聯(lián)通整治違規(guī)互聯(lián)網(wǎng)接入及大帶寬業(yè)務(wù)，某CDN/IDC服務(wù)商業(yè)務(wù)中斷，華為云故障一整天，導(dǎo)致生意幫一整天當(dāng)機，脈脈服務(wù)器掛了，失聯(lián)15個小時……

　　接著整個經(jīng)歷就非常崩潰了：用戶不間斷的咨詢投訴，很多用戶幾百萬的生意，重要的戰(zhàn)略合作受影響，重要數(shù)據(jù)和資料的無法調(diào)用，CDN直播叫停……都因為網(wǎng)絡(luò)故障而停擺，影響甚大。

　　意外在所難免。用戶和客戶是無辜的。如何保障自己的技術(shù)和服務(wù)的高可用性，做到即使在出現(xiàn)0.0001%的故障發(fā)生率的情況下，仍然可以給用戶和客戶提供高可用性，保證災(zāi)難情況下網(wǎng)絡(luò)服務(wù)的及時恢復(fù)，是云技術(shù)服務(wù)商、提供商必須面對，又亟待解決的重要問題。

　　什么是高可用性？

　　要了解高可用性對于服務(wù)提供商的必要性和重要性，首先我們要了解什么是高可用性。一般來講，一個靠譜的云服務(wù)一定是：

　　可用性非常高的，24*7隨時可以用。

　　可控性一定要好，非云服務(wù)你可以上個鎖，云服務(wù)沒法上鎖，如何能做到可控性很好是一個難點。

　　災(zāi)難恢復(fù)，是軟件就會有問題。怎么樣積極地面對這個問題，多長時間恢復(fù)，如何恢復(fù)，是否有成熟的預(yù)案這是任何一個云廠商都要誠實面對的問題。

　　業(yè)界的高可用性標準

　　首先，我們來看一下可用性的評判標準，就是SLA，Service Level Agreement。一個東西是不是高可用，那么就問他幾個九，敢不敢拿出來說一下。

　　3個9基本上是國內(nèi)云服務(wù)的基礎(chǔ)線。也就是說云服務(wù)至少要做到3個9才稱為基本上可用，是合格性產(chǎn)品。如果做不到這個，你的產(chǎn)品就連忽悠客戶都做不到了�；厝ブ匦麻_發(fā)，重新裝備，刷到至少3個9再回來。

　　從3個9邁向4個9，也就是99.99%的可用性，每年只有52.6分鐘的時間是不可用的。以前谷歌搜索可用度大概是全球5個9到6個9之間，每一個小節(jié)點都是5個9不到6個9之間。其實這個是很可怕的一個概念，也就意味著即使有不可抗力，發(fā)生了臺風(fēng)，洪水，地震等重大災(zāi)害性事件，也只需要5分鐘內(nèi)恢復(fù)服務(wù)。

　　相較而言，大部分國內(nèi)的IDC機房都是按照99%設(shè)計的，一年至少3天是不可用的。這一標準，給了廠商一定的機動時間，也提供了一定的靈活性。

　　所以說，從3個9往上，每一次提升都是一次技術(shù)的挑戰(zhàn)。SLA直接反映一個云服務(wù)的靠譜程度：

　　從99%到3個9，是基本可以靠人力和運氣解決的；

　　從3個9到4個9，考驗的是運維自動化的能力，災(zāi)備的能力；

　　從4個9往上基本考驗的是服務(wù)基礎(chǔ)架構(gòu)、業(yè)務(wù)設(shè)計的能力。

　　聲網(wǎng)Agora.io的高可用性

　　聲網(wǎng)Agora.io一直在4個9到5個9之間努力，這個目前還是很有難度的。為了保證高可用性，聲網(wǎng)Agora.io特意將核心機房分布在全球各地，以減少地區(qū)性的網(wǎng)絡(luò)故障對于通信的影響，同時，核心機房用了十幾家不同的IDC，即使某家的網(wǎng)絡(luò)故障了，也能最大限度上保障服務(wù)的穩(wěn)定性。

　　聲網(wǎng)在全球部署了覆蓋四個大洲的虛擬實時通信網(wǎng)，100多個數(shù)據(jù)中心，近千臺服務(wù)器，每年為用戶提供數(shù)千億分鐘的網(wǎng)絡(luò)通話服務(wù)，這一系列的舉動都是為了充分確保接入SDK的客戶隨時隨地獲得高質(zhì)量的通話服務(wù)。

　　我們認為，要提升高可用性，需要從方方面面整體布局。

　　從架構(gòu)上，聲網(wǎng)的所有服務(wù)都有多點備份，并且所有備份節(jié)點都能夠獨立服務(wù)，不依賴其他節(jié)點。任何機房故障，甚至幾個機房同時故障都不會影響到整體服務(wù)，除非所有節(jié)點同時發(fā)生故障。

　　聲網(wǎng)的SDK也能夠快速切換，一旦檢測到某個服務(wù)節(jié)點不可用，可以快速切換到其他備份節(jié)點。

　　當(dāng)然，武功再高，也怕菜刀。為了防范一些萬一的故障導(dǎo)致服務(wù)不可用，聲網(wǎng)還有一系列措施應(yīng)對故障。

　　首先聲網(wǎng)部署了實時故障檢測系統(tǒng)。在服務(wù)用戶的同時，該系統(tǒng)收集整個系統(tǒng)服務(wù)狀態(tài)，并實時分析。如果遇到服務(wù)數(shù)據(jù)異常立即報警。

　　接下來，聲網(wǎng)的數(shù)據(jù)分析系統(tǒng)可以對服務(wù)數(shù)據(jù)進行多個維度和層面的分析匯總。在故障發(fā)生時，可以快速判斷是哪個模塊或者機房出現(xiàn)問題。有了這個系統(tǒng)，聲網(wǎng)就可以快速定位故障。比如常見的數(shù)據(jù)庫故障，進程崩潰，遇到性能瓶頸，還有此次事件的主角——機房故障。

　　在定位了問題之后，聲網(wǎng)還有一套工具能夠?qū)崟r調(diào)整線上系統(tǒng)，進行故障隔離。比如遇到某些數(shù)據(jù)庫瓶頸時，能夠暫時關(guān)閉某些數(shù)據(jù)庫的寫服務(wù)，不影響讀數(shù)據(jù)。能夠暫停某個機房的服務(wù)，避免用戶受到影響�；蛘吣承┖笈_服務(wù)故障，暫時禁用，不讓用戶的音視頻通信受到影響。

　　在進行故障隔離后，或者遇到難以隔離的故障，就需要快速恢復(fù)了。對于常見的進程崩潰，聲網(wǎng)有自動化的包管理工具可以一鍵重啟，回滾到前一個穩(wěn)定版本。對于數(shù)據(jù)庫故障，有數(shù)據(jù)庫工具可以快速重建數(shù)據(jù)庫，并恢復(fù)數(shù)據(jù)。即使遇到這次事件中的機房故障，除了架構(gòu)設(shè)計能夠保證服務(wù)基本不受影響外，也有機房上架工具能夠快速上架，并使用部署工具重新部署一個新的機房。一般而言，聲網(wǎng)上架一個新機房僅需幾十分鐘。

　　故障隔離處理后，聲網(wǎng)會盡快對故障的根本原因做一個徹底的調(diào)查。首先從系統(tǒng)中收集各種數(shù)據(jù)和日志，進行分析，并嘗試建立測試環(huán)境以確認故障的根本原因。

　　最后，需要進行服務(wù)改進。改進主要從幾個方面著手：第一，修復(fù)問題。直接修復(fù)bug，改進算法性能等。第二，架構(gòu)改進。下一次這個模塊再出問題，怎么樣設(shè)計系統(tǒng)才能夠讓服務(wù)不受影響？如何設(shè)計多點備份？第三，工具改進。下次再出現(xiàn)這些問題，需要哪些工具可以幫助更快速的定位，對故障進行隔離，更快速的恢復(fù)故障？

　　開發(fā)者該如何甄別高可用性服務(wù)

　　面對市場上魚龍混雜的云服務(wù)提供商，開發(fā)者應(yīng)該如何正確地甄別和選擇高可用度的服務(wù)呢？三個層面：

　　觀察該服務(wù)商的架構(gòu)是否符合高可用度，SLA一定要達到4個9；

　　是否具備完整的、實時的災(zāi)難預(yù)案。從問題發(fā)生的預(yù)警，到問題定位分析，到問題解決和服務(wù)恢復(fù)，是否能在最快的時間內(nèi)完成，將用戶的損失降到最低，

　　是否把服務(wù)可用性當(dāng)成生命線的信仰。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

從脈脈宕機15個小時看如何實現(xiàn)高可用性架構(gòu)

評論排行

推薦閱讀

專題