因為當企業(yè)應用上云后,這些應用的高可用能力有可能提升了一部分,但仍存有許多問(wèn)題;而當我們探討上云后這些應用的運維效率,卻未必有很大的提升,因為所有的運維都是基于基礎設施進(jìn)行的,而云計算是一個(gè)比較大的基礎設施的改變;如果我們再問(wèn),上云后整個(gè)應用的開(kāi)發(fā)速度是不是得到了極大的提升,這個(gè)時(shí)候很多人都要說(shuō),并不。
因此,今天主要探討的就是如何利用云原生相關(guān)的技術(shù)幫助我們的應用去做優(yōu)化,從傳統應用轉變成現代化應用。
非典型的典型 - 云上眾生相
我們先采取一個(gè)從個(gè)體再到整體的形而上的方式,來(lái)看一個(gè)比較典型的企業(yè)案例。

這個(gè)企業(yè)雖然和很多上云企業(yè)有很多不同,比如說(shuō)行業(yè)、應用類(lèi)別、上云動(dòng)機等等,但他們同時(shí)也有很多共同點(diǎn):比如上云后解決了很多問(wèn)題但仍然遺留了相當多的問(wèn)題。這個(gè)企業(yè)屬于新零售行業(yè),有不錯的銷(xiāo)售額。
但是隨著(zhù)業(yè)務(wù)的發(fā)展,傳統的 ERP 軟件已經(jīng)不能滿(mǎn)足業(yè)務(wù)發(fā)展的訴求,最主要體現在當他要參與 618、雙十一這樣的年度大促時(shí),他的 ERP 供應商告訴他,他們的軟件并不能支持達到上千或者上萬(wàn)的 TPS,只能夠支持到百級的 TPS。因此對于這些新零售的電商企業(yè)而言,他們沒(méi)有辦法去滿(mǎn)足大規模業(yè)務(wù)發(fā)展的訴求,也因此找到了阿里云。
阿里云為企業(yè)提供了基于阿里云互聯(lián)網(wǎng)架構的解決方案,也同時(shí)讓這些新的互聯(lián)網(wǎng)應用、新的電商平臺應用遷移到阿里云上。整體而言,開(kāi)發(fā)是找了 ISV 去進(jìn)行委托開(kāi)發(fā),把客戶(hù)的應用從線(xiàn)下 IDC 遷移到了線(xiàn)上公共云上,在這里面最主要的技術(shù)升級是區域化,上云之后整體的運維是客戶(hù)自己的運維部門(mén)來(lái)負責。整個(gè)遷云的過(guò)程也非常成功,很好地解決了客戶(hù)應用的大規模問(wèn)題,使得客戶(hù)可以很好地參與 618、雙十一這類(lèi)的大促。
同時(shí)由于整體軟件也就是這個(gè)電商平臺采用的是自研方式,所以比較大地釋放了像傳統 ERP 一樣高昂的成本。但由于整體的結構迭代非常快,導致在有一次大促中,由于業(yè)務(wù)量非常大,導致原來(lái)架構中的一個(gè)隱患引發(fā)了比較大的生產(chǎn)事故,對客戶(hù)自己而言,他們評估這次事故給他們造成了非常大體量的損失。
To 云:“不上很焦慮,上了也焦慮”
所以說(shuō)今天的很多企業(yè),他們對于上云都有很多的焦慮,體現在他們思考到底要不要上云,因為上云不能只是單純跟風(fēng),而是要想上云到底可以為他們解決什么問(wèn)題。

對于上云之后的企業(yè),他們雖然取得了階段性的成功,也需要思考他們還有哪些問(wèn)題沒(méi)有得到解決。所以說(shuō)不管有沒(méi)有上云的企業(yè),他們都非常焦慮,這就體現在他們都在思考怎么樣才能很好地縮短研發(fā)周期,以支持快速的業(yè)務(wù)發(fā)展需要;怎么樣去提升整體的運維效率,并在這個(gè)過(guò)程中讓他們的 IT 部門(mén)具備很強的控制力;在整體上云和上云之后,可以比較好地降低整體的 IT 應用成本,以及降低軟件的復雜度,提升整個(gè)系統的高可用能力等,這些方方面面絕大部分都聚焦在應用的非功能性特性上面。
1、焦慮的根源
所有的這些焦慮,我們可以從應用的角度去深度分析是什么原因造成的。

大家知道對于應用而言,核心的就是架構,包括了應用的業(yè)務(wù)架構和技術(shù)架構。從應用架構上去看,需要滿(mǎn)足客戶(hù)的應用發(fā)展訴求。比如說(shuō)數據的產(chǎn)生,隨著(zhù)今天 IoT 不斷普及,數據會(huì )產(chǎn)生非常大的接入量,對于這些數據的處理也帶來(lái)了更高的要求。
基于傳統的、更多的服務(wù)于人的請求的響應式數據處理方式已經(jīng)不能滿(mǎn)足于業(yè)務(wù)的需求,對于 IoT 設備更多的是基于請求、響應這類(lèi)事件的模型和方式。同樣的,企業(yè)的業(yè)務(wù)發(fā)展需要跟更多的公司去進(jìn)行生態(tài)的連接。這些大量的業(yè)務(wù)訴求也對底層的技術(shù)架構帶來(lái)了比較多的要求。這些要求就體現在,要求底層的技術(shù)架構能夠支持高度的冗余,能支持微服務(wù)和海量的業(yè)務(wù)并發(fā)、以及能夠支持動(dòng)態(tài)伸縮、能夠提供 SLA 等。
如果我們再進(jìn)一步深度發(fā)掘,這里面到底是需要解決什么樣的核心矛盾時(shí),我們可以發(fā)現其實(shí)核心矛盾在于隨著(zhù)上云、業(yè)務(wù)的復雜度不斷增加,使得 IT 有更多的管理成本。而這個(gè)成本就體現在,所有的微服務(wù)、高可用都需要用高度的系統冗余去解決。同時(shí)由于業(yè)務(wù)的快速發(fā)展,需要整個(gè) IT 系統去響應頻繁的變換。核心矛盾就在于,系統的高度冗余與系統的頻繁變化之間的矛盾,所有的分布式系統都在圍繞這一主要矛盾來(lái)進(jìn)行解決。
舉個(gè)例子,在原來(lái)的單機時(shí)代,如果我們只需要一個(gè)人管理一臺機器,用一臺機器上的軟件就可以滿(mǎn)足自身業(yè)務(wù)發(fā)展的要求,那么我們顯然沒(méi)有這么多的矛盾。只有當一個(gè)人變成幾十甚至上百個(gè)人,當這樣一臺機器不是運行在一個(gè)節點(diǎn)而是幾十上百甚至上千個(gè)節點(diǎn)時(shí),整個(gè) IT 需要處理的復雜度就從 1 對 1 變成了 1 對 N 的頻發(fā)。所以說(shuō)整體的復雜度得到了一個(gè)極大的提升,這也是我們所講的矛盾的根源。
2、快速解和深度解
那么對于這樣的矛盾有什么樣的解法呢?今天在云的時(shí)代,我們總結了一下有快速的解法和需要更多資源投入的深度解法。

快速解就包括了 re-host 的模式,即把應用的運行環(huán)境從傳統的線(xiàn)下 IDC 遷移到了云的環(huán)境。在這種模式下,應用的架構沒(méi)有發(fā)生變化,應用的風(fēng)險也是比較低的,但是價(jià)值的回報只能說(shuō)是較高。與此對應的另一個(gè)解法就是 re-platform,就是把整體應用的交付和運維都改變,但是應用的軟件架構不發(fā)生改變。
比如說(shuō)我們通過(guò)容器的方式去改變整個(gè)軟件的留存,改變整體的運維留存。那么在這個(gè)模式下面,它的架構變更的幅度是相對比較小的,實(shí)施風(fēng)險是中等且可以得到比較高的價(jià)值回報。
但如果我們要徹底解決上面的問(wèn)題,那么就要采取整個(gè)軟件重構的 re-build 方式,或者對于軟件的重要模塊去進(jìn)行一個(gè) re-factor 重構的模式。這些模式都會(huì )涉及到軟件的架構發(fā)生變化,因此它的實(shí)施風(fēng)險也是很高的,但同樣的高投入高風(fēng)險也帶來(lái)了高回報,改變后的應用可以更好地解決矛盾。
所有的解法都與云原生有著(zhù)非常大的關(guān)系。云原生被提出來(lái)的最主要的原因,是企業(yè)上云之后發(fā)現很多應用不能很好地去利用云的特性,因此有人說(shuō)很多應用不是云原生類(lèi)型的應用。因此,云原生被提出來(lái)了。
云原生的關(guān)鍵內涵
我們先不去討論云原生的定義是什么,但我們要專(zhuān)門(mén)提出關(guān)于云原生的三個(gè)關(guān)鍵內涵,理解這三個(gè)內涵對于我們怎么樣去利用云原生構建現代化應用有非常大的幫助。

- 云原生技術(shù):今天云原生的技術(shù)有閉源的和大量開(kāi)源的。閉源通常體現在對應用相對透明的云廠(chǎng)商的基礎設施上面。同樣,大量的開(kāi)源技術(shù)對于應用而言有比較大的關(guān)系,因為所有的應用會(huì )直接構架在這些開(kāi)源的云原生技術(shù)棧上面。但如果說(shuō)這些應用要比較好地去利用底層的云原生技術(shù),我們通常會(huì )建議這些場(chǎng)景中我們的應用可以大量采用云原生的產(chǎn)品。
- 云原生產(chǎn)品:一部分客戶(hù)的技術(shù)棧都基于開(kāi)源的技術(shù)棧所構建,但開(kāi)源的技術(shù)棧雖然在很多技術(shù)、功能、穩定性上沒(méi)有問(wèn)題,在可維護性和跟底層基礎設施的配合上卻可能會(huì )出現問(wèn)題。因此我們會(huì )推薦應用盡量在云原生產(chǎn)品上去構建。
- 云原生理念:光靠技術(shù)和產(chǎn)品無(wú)法很好地解決前面提到的應用面臨的方方面面的問(wèn)題,因為技術(shù)和產(chǎn)品是生產(chǎn)工具,生產(chǎn)工具的改變往往會(huì )導致整個(gè)企業(yè)的 IT 文化,也就是生產(chǎn)關(guān)系的改變。
在整個(gè) IT 文化當中,起到最主要作用的就是這其中整個(gè)企業(yè)的生產(chǎn)流程,以及生產(chǎn)流程之間人與人的合作關(guān)系。由于云原生的技術(shù)和產(chǎn)品在工具層面帶來(lái)了改變,那么不可避免地就帶來(lái)了在整個(gè)生產(chǎn)流水線(xiàn),即企業(yè)的生產(chǎn)流程之間的改變。
比如說(shuō),原先有的崗位對人的要求發(fā)生了改變,或者原先的崗位沒(méi)有了,同樣一些新的崗位可能就被創(chuàng )造出來(lái)了。在這過(guò)程中,受到最大影響的就是人,包括人與人之間的協(xié)作關(guān)系。因此要很好地去運用云原生,特別要注意的就是云原生的技術(shù)和產(chǎn)品對于整個(gè)企業(yè)的生產(chǎn)流程、生產(chǎn)流水線(xiàn)上帶來(lái)的改變,特別是對于人和組織上面要求的升級。
1、云原生是云計算的再升級
云原生不僅能幫助大家更好地去建好云、用好云、管好云,同樣也是整個(gè)云計算的再升級。

這不僅體現在云的基礎設施層面的升級,即云計算的提供廠(chǎng)商會(huì )意識到今天所提供的基礎設施還不能比較好地滿(mǎn)足應用的要求,需要不斷地升級以能夠更好地滿(mǎn)足應用在高效的交付、運維上面的需求。
同樣的,他也會(huì )要求應用在架構上徹底升級,讓?xiě)皿w現出更好的彈性、韌性和可觀(guān)測性。有了基礎設施和應用的升級,我們會(huì )進(jìn)一步去追求整體研發(fā)效率的提升,這其中有采用 Serverless 這些新的計算形態(tài)去幫助我們應用提升整體的交付和運維效率的方式,以及更重要的就是解決頻繁變化的 IT 系統當中的快速迭代和系統穩定性之間的矛盾。
所以我們說(shuō)云原生是云計算整體的一個(gè)再升級。
2、什么是現代化應用
什么是現代化應用,跟傳統的應用又有什么區別呢?

現代化應用中包含彈性、可觀(guān)測性和度量、無(wú)狀態(tài)和安全等典型特征,在整體的一個(gè)計算結構上我們可以看到,現代化應用跟云原生應用有非常多相似之處。它們之間的區別在于,現代化的應用不一定要跑在云上。
云原生應用顧名思義一定與云相關(guān),但是他們很多特征都是一樣的,它們都要求整體的應用要構建在云原生的技術(shù)產(chǎn)品之上,這些技術(shù)和產(chǎn)品能真正地體現在應用采用云原生的架構時(shí),并且在整體的實(shí)施過(guò)程中要徹底貫徹云原生的開(kāi)發(fā)理念。這樣的應用才能夠比較好地跑在各種基礎設施上面。
既然提到了架構是承載應用的關(guān)鍵要素,那么云原生架構有什么特點(diǎn)呢?
云原生架構
云原生架構是一組架構原則、設計模式和設計方法的組合。在這個(gè)組合上面有非常明顯的、區別于傳統架構的特點(diǎn)。

云原生架構會(huì )盡量幫助我們的應用把其中的非功能性代碼進(jìn)行剝離。而在傳統應用中,有不少代碼需要去處理非功能性的問(wèn)題。云原生架構下,這部分代碼剝離出來(lái)后會(huì )被放到云原生的基礎設施、產(chǎn)品和技術(shù)中去,由底層的 PaaS 平臺和 IaaS 平臺去承載客戶(hù)應用當中非功能性的問(wèn)題,從而讓開(kāi)發(fā)人員更多關(guān)注業(yè)務(wù)代碼的編寫(xiě)。
有了這樣的云原生架構去接管應用中原有的大量非功能特性,業(yè)務(wù)中原本因非功能性問(wèn)題造成的業(yè)務(wù)中斷也可以被避免,同時(shí)使應用具備了更輕量、敏捷、高度自動(dòng)化的特征。
1、云原生架構原則

我們在云原生架構下抽取出了最重要的 7 個(gè)云原生架構原則:
- 服務(wù)化原則:微服務(wù)化顆粒度可以更好地滿(mǎn)足客戶(hù)應用的特征;
- 彈性原則:從虛擬機到容器層面到進(jìn)一步應用層面具備不同彈性;
- 韌性原則:高可用原則的進(jìn)一步提升,應用在各種情況下持續為客戶(hù)提供服務(wù);
- 可觀(guān)測性原則:與監控不同,可觀(guān)測性模型可事先提供大量從日志到鏈路跟蹤的有效信息,從而主動(dòng)發(fā)現系統中的潛在風(fēng)險;
- 自動(dòng)化原則:從底層的硬件到軟件、組件,都有比較大的提升,因此更希望有自動(dòng)化原則去幫助我們更有效地運維,從而降低運維成本;
- 零信任原則:云原生架構可以運行在不同架構上,因而對安全提出了新的要求,要求所有的應用不管運行在什么環(huán)境都是不信任的,每次運行請求都需要校驗合法性;
- 持續演進(jìn)原則:可以根據企業(yè)的特點(diǎn),每個(gè)階段采取適合的演進(jìn)目標,長(cháng)期迭代后使每個(gè)目標最終演變到現代化的應用。
2、云原生的主要架構模式
云原生的架構模式非常多,列舉如下圖所示,詳細的內容可以參考近期出版的《阿里云云原生架構實(shí)踐》。

3、阿里云云原生架構方法

關(guān)于云原生的架構方法,我們提出了 ACNA 的架構方法。這是阿里云關(guān)于云原生架構的一個(gè)架構設計方法,包含了對云原生架構的評估體系和成熟度的度量體系,同時(shí)也包含了阿里云對廣大客戶(hù)在對應用實(shí)施云原生技術(shù)改造過(guò)程中,積累的最佳實(shí)踐和用到的產(chǎn)品體系和技術(shù)。在這之中有一些架構視角,我們希望對每個(gè)企業(yè)來(lái)說(shuō),他們可以根據自己企業(yè)的情況去選擇與之相匹配的技術(shù)架構能力,最終為業(yè)務(wù)發(fā)展、企業(yè)戰略發(fā)展服務(wù)。
4、阿里云云原生架構閉環(huán)
整個(gè)架構方法是包含了多個(gè)視角的綜合體,在這之中我們希望通過(guò)架構持續演進(jìn)能形成一個(gè)閉環(huán)。

整個(gè)架構閉環(huán)包含了最主要的八個(gè)階段。從識別業(yè)務(wù)痛點(diǎn)到確定架構目標,在評估風(fēng)險過(guò)程中選取相應的技術(shù)制定迭代計劃,推動(dòng)落地計劃中我們建議企業(yè)在實(shí)施云原生架構過(guò)程中有一些專(zhuān)門(mén)的機構去評審整體的風(fēng)險,從而讓整個(gè)過(guò)程形成一個(gè)閉環(huán)。而在這個(gè)過(guò)程中要特別關(guān)注架構治理視角,這需要有相應的組織或人員來(lái)幫助應用在迭代過(guò)程中進(jìn)行架構治理。
5、如何衡量云原生架構的成熟度
在 ACNA 里我們提出了一個(gè)衡量云原生架構的成熟度模型,其中有六個(gè)關(guān)鍵維度,我們簡(jiǎn)稱(chēng) SESORA。

這六個(gè)維度的能力,也是在現代化應用中的最主要的六個(gè)關(guān)鍵指標。每個(gè)指標從 0-3 分為了四個(gè)等級,每個(gè)等級有對應的得分,在評估后可以得出一個(gè)關(guān)于應用在云原生架構上得到的評分高低。今天阿里云提出的這個(gè) SESORA 模型已經(jīng)在業(yè)界中得到很多機構和企業(yè)的采納,從而可以幫助企業(yè)在云原生架構改造上提高成熟度。
客戶(hù)案例
最后來(lái)看兩個(gè)典型案例。第一個(gè)案例是在阿里云上的應用怎么通過(guò)云原生的產(chǎn)品去有效預防在系統架構設計當中穩定性的風(fēng)險。我們采用了微服務(wù)的架構模式,有大量數據是存放在 MongoDB 中的,在這個(gè)架構中客戶(hù)采用了 PTS、ARMS 和 AHAS 這個(gè)組合,這可以比較好地幫客戶(hù)去主動(dòng)探測系統中是否存在潛在的風(fēng)險,從而去預防穩定性的風(fēng)險。

第二個(gè)案例是關(guān)于 Serverless 的案例,解決的問(wèn)題是幫助微服務(wù)應用快速上云。因為在這個(gè)過(guò)程中,我們往往需要應用去解決很多問(wèn)題,而在 Serverless 模式下,這些底層的部署都得到了很大的復雜度降低。
當客戶(hù)應用有突發(fā)流量增加時(shí),Serverless 會(huì )探測到并主動(dòng)申請新資源,從而使新增流量得到及時(shí)響應;當突發(fā)流量消失時(shí) Serverless 也會(huì )主動(dòng)釋放資源,從而降低成本。

來(lái)源:阿里巴巴云原生團隊