云服務(wù)的故障很?chē)乐亍9收掀陂g和故障之后的服務(wù)中斷讓事情變得更糟糕。微軟的高管們對此非常了解,并且計劃改進(jìn)該公司處理Azure故障的溝通方式。
我注意到微軟已經(jīng)越來(lái)越少地使用Azure狀態(tài)頁(yè)面來(lái)通知用戶(hù)云服務(wù)故障,這種情況已經(jīng)持續了一段時(shí)間了。早在今年三月份,美國東部地區出現了幾個(gè)小時(shí)的故障——這是微軟最活躍的區域之一,狀態(tài)頁(yè)面上就沒(méi)有關(guān)于此次故障的消息——而推特上對此事的抗議和吐槽也很少(這是云服務(wù)故障的另一個(gè)重要的晴雨表)。
事實(shí)證明,這種安靜是設計的結果。微軟一直在努力讓其云用戶(hù)進(jìn)入其個(gè)性化的Service Health頁(yè)面,而不是面向公眾的Azure狀態(tài)網(wǎng)站。而且,該公司在推特上的Azure支持帳戶(hù)一直在嘗試引導用戶(hù)查看這些頁(yè)面,并且/或者在用戶(hù)需要有關(guān)故障的最新信息時(shí)直接向該帳戶(hù)發(fā)送消息。 (說(shuō)服用戶(hù)擺脫推特的束縛也有利于讓我們這些令人討厭的記者更難跟蹤故障的情況,從而減少了“Azure故障”標題出現的數量。)
在本周的博客中,負責Azure故障溝通流程的首席項目經(jīng)理Sami Kubba介紹了微軟目前的狀況以及該公司在故障溝通方面的一些打算。他的帖子是微軟一系列文章的一部分,這個(gè)系列的文章介紹了微軟努力改進(jìn)Azure可靠性、性能等工作采取的一些措施和方法。
他指出,微軟的目標是在故障出現的15分鐘之內,通知所有受到影響的Azure訂閱用戶(hù)。微軟使用人類(lèi)和自動(dòng)通知機制來(lái)完成這項工作。他表示,通過(guò)服務(wù)運行狀況(Service Health)發(fā)出的自動(dòng)通知在上季度微軟故障溝通量中已經(jīng)占到了總量的一半以上。Kubba表示,微軟的目標是繼續減少公司通知用戶(hù)故障的時(shí)間。
他補充表示:“擴展我們對基于人工智能的操作以自動(dòng)識別相關(guān)受影響的服務(wù),并且在問(wèn)題得到解決之后,盡快發(fā)送解決方案消息,我們目前還處在這個(gè)進(jìn)程的早期階段。”
Kubba承認,微軟目前只通過(guò)公共Azure狀態(tài)頁(yè)面來(lái)通告“廣泛的”故障——這意味著(zhù)影響了多個(gè)區域和/或服務(wù)的故障。微軟通過(guò)Service Health直接與受影響的客戶(hù)進(jìn)行內部溝通,并用這種方式解決了目前95%的故障。Kubba表示之所以會(huì )有這么高的比例,主要是因為絕大多數故障只會(huì )影響很小一部分訂閱用戶(hù)。
Azure Service Health是一套體驗,可為Azure服務(wù)問(wèn)題提供個(gè)性化指導和支持,包括故障甚至是計劃內的維護。AzureService Health由Azure狀態(tài)、Service Health服務(wù)和Resource Health組成。
Kubba表示,微軟正在努力在該公司其他的云產(chǎn)品(包括Microsoft 365和Power Platform)中推廣這種故障通告系統,從而使之保持一致。客戶(hù)目前已經(jīng)可以在推特上看到M365狀態(tài)帳戶(hù),它將用戶(hù)引導到該公司的門(mén)戶(hù),并在故障出現時(shí)直接將消息發(fā)送到那里。
正如我過(guò)去所指出的,此系統適用于管理員以及具有管理員訪(fǎng)問(wèn)權限的云帳戶(hù)用戶(hù)。但是,在故障出現的時(shí)候,除非IT部門(mén)在內部向用戶(hù)發(fā)出通告,否則仍然會(huì )有很多用戶(hù)會(huì )到推特上發(fā)問(wèn),看看是否有其他人也遇到了同樣的情況,并且詢(xún)問(wèn)Office 365故障到底是何時(shí)發(fā)生的之類(lèi)的問(wèn)題。
Kubba確實(shí)表示過(guò),在比較小的故障之后,客戶(hù)可以要求事后報告(比較大的故障將有公開(kāi)的執行報告),他表示該團隊一直努力使事情變得更加透明,并且向用戶(hù)展示微軟為了解決與當前故障同類(lèi)型的問(wèn)題會(huì )采取的具體步驟。來(lái)源:ZDNet