在云計(jì)算中，虛擬化技術(shù)、分布式資源管理技術(shù)、數(shù)據(jù)存儲(chǔ)技術(shù)、網(wǎng)絡(luò)技術(shù)是最為關(guān)鍵的幾個(gè)基礎(chǔ)技術(shù)體系。其中，虛擬化作為底層最核心的技術(shù)之一，其在高可用、高性能、快速創(chuàng)建等方面的技術(shù)指標(biāo)，甚至直接關(guān)系到云計(jì)算的商業(yè)模式能否成立。

　　虛擬化技術(shù)也分為技術(shù)流派，其中以 KVM、Xen、VMWare （Virtual Machine ware）等為主流。早在2013年，騰訊云基于對(duì)虛擬化技術(shù)未來發(fā)展方向的判斷，放棄當(dāng)時(shí)的主流XEN虛擬化技術(shù)，在業(yè)界率先擁抱開源的KVM技術(shù)，并將其不斷演進(jìn)。

　　近日，騰訊云虛擬化技術(shù)負(fù)責(zé)人陳立東，首次向外界詳細(xì)披露其在虛擬化技術(shù)上的技術(shù)演進(jìn)路線。

　　虛擬化到底是什么？

　　簡(jiǎn)單來說，虛擬化主要是指服務(wù)器資源的虛擬化，即在一臺(tái)物理機(jī)上為一個(gè)虛擬機(jī)構(gòu)造一個(gè)完整的操作系統(tǒng)的運(yùn)行環(huán)境，再通俗點(diǎn)說，就是“把一臺(tái)電腦虛擬成N臺(tái)電腦”。其中，虛擬化的資源包括 CPU、內(nèi)存、網(wǎng)絡(luò)和存儲(chǔ)幾個(gè)部分。一般來說，在一個(gè)物理機(jī)上，通過虛擬化技術(shù)可以將多個(gè)完整的虛擬機(jī)以不同的形式售賣給不同的客戶，滿足客戶定制化的需求。

　　談到虛擬化技術(shù)，這其實(shí)并不是一個(gè)新鮮的詞匯，早在 60年代中期，IBM 就已經(jīng)有了虛擬化技術(shù)。近十多年來，尤其是 2005年Intel 推出硬件輔助虛擬化，也就是在 CPU 指令上支持虛擬化，才讓這個(gè)技術(shù)有了一次重大的發(fā)展。

　　最初，虛擬化技術(shù)的主流是劍橋大學(xué)開發(fā)的 Xen。陳立東透露，2010 年騰訊做開放平臺(tái)時(shí)，采用的也是 Xen。之后推出騰訊云公有云產(chǎn)品時(shí)，騰訊云選擇了 KVM。之所以做出這個(gè)選擇，陳立東表示，主要的原因是 KVM 技術(shù)是一個(gè)完全開源且輕量級(jí)的技術(shù)，內(nèi)核對(duì)其的支持也做得比較好，是后續(xù)技術(shù)發(fā)展的方向。

　　為了解虛擬化技術(shù)的作用與意義，我們從一張騰訊的云分布式調(diào)度系統(tǒng) VStation 的整體架構(gòu)圖中來看。VStation 作為騰訊云計(jì)算操作系統(tǒng)，承擔(dān)了資源調(diào)度、請(qǐng)求排隊(duì)的工作。

　　虛擬化則負(fù)責(zé)為每臺(tái) CVM（云服務(wù)器（Cloud Virtual Machine））構(gòu)造出完整的 PC 運(yùn)行環(huán)境，包括 CPU、內(nèi)存、網(wǎng)絡(luò)、存儲(chǔ)各個(gè)部分資源。主要包含 libvirt、qemu、kvm 三部分：

qemu與kvm構(gòu)成hypervisor，負(fù)責(zé)CVM資源的虛擬化，在物理機(jī)上，虛擬出一個(gè)個(gè)完整的PC環(huán)境；
libvirt負(fù)責(zé)提供統(tǒng)一對(duì)外的接口，用于管理hypervisor。

　　圖1. 整體架構(gòu)

　　騰訊云虛擬化技術(shù)演進(jìn)路程

　　據(jù)陳立東介紹，在騰訊云的大規(guī)模云計(jì)算實(shí)踐過程中，他們遇到一些虛擬化方面的技術(shù)挑戰(zhàn)，也在不斷解決問題的過程中，走出了一條自己的虛擬化技術(shù)路線圖。

　　挑戰(zhàn)一：如何提高云服務(wù)器的可用性？

　　第一個(gè)挑戰(zhàn)體現(xiàn)在可用性方面。隨著目前硬件發(fā)展的趨勢(shì)，服務(wù)器的集成度越來越高，單臺(tái)物理機(jī)故障對(duì)云服務(wù)器的影響面越來越大。如何在云上規(guī)避物理服務(wù)器宕機(jī)對(duì)虛擬化的影響，是騰訊云面臨的第一個(gè)挑戰(zhàn)。

　　陳立東提到，在騰訊云規(guī)模達(dá)到一定規(guī)模時(shí)遇到了一個(gè)問題，當(dāng)時(shí)某個(gè)游戲客戶投訴騰訊云云服務(wù)器故障率高，云服務(wù)器突然宕機(jī)，導(dǎo)致游戲玩家掉線，客戶甚至因此考慮遷移到其他云。這給了陳立東團(tuán)隊(duì)非常大的壓力。

　　通過統(tǒng)計(jì)服務(wù)器常見的故障原因后，發(fā)現(xiàn)在服務(wù)器故障中最主要的故障原因是內(nèi)存故障。當(dāng)內(nèi)存發(fā)生多 bit UCE錯(cuò)誤時(shí)，就會(huì)導(dǎo)致整個(gè)物理機(jī)宕機(jī)，一臺(tái)物理機(jī)上所有的虛擬機(jī)都會(huì)隨之宕機(jī)。

　　然而，問題是內(nèi)存硬件上本身存在失效率，低概率的發(fā)生多 bit UCE 錯(cuò)誤是無法完全避免的。為了提升云服務(wù)器的可用性，騰訊云采用了多種優(yōu)化方案，這里介紹其中兩個(gè)利器：內(nèi)存高級(jí) RAS 特性MCA recovery 和熱遷移。

　　首先是 MCA recovery。為了解決內(nèi)存故障率的問題，騰訊云聯(lián)合了 CPU 廠商，包括 Intel，針對(duì)騰訊云單獨(dú)定制 CPU。在定制過程中，騰訊云要求服務(wù)器廠商為騰訊云提供一些更高端的 CPU 特性，其中一個(gè)叫做 MCA Recovery。

　　之前，如果發(fā)生了內(nèi)存UCE錯(cuò)誤，原有的服務(wù)器就會(huì)直接宕機(jī)，但在支持了 MCA Recovery后再發(fā)生內(nèi)存錯(cuò)誤時(shí)，服務(wù)器不會(huì)宕機(jī)，只會(huì)發(fā)出警告內(nèi)存有問題，再由上層決定解決如何處理。

　　騰訊云是首家在數(shù)據(jù)中心中大規(guī)模使用MCA Recovery技術(shù)的云廠商，剛開始進(jìn)展并不順利。啟用了MCA Recovery后，大量的UCE錯(cuò)誤并沒有成功規(guī)避。當(dāng)時(shí)服務(wù)器ODM廠商，Linux 內(nèi)核對(duì)MCA Recovery支持并不完善。

　　針對(duì)硬件廠商缺陷導(dǎo)致的規(guī)避失敗案例，騰訊云開發(fā)故障注入工具，作為服務(wù)器 BIOS BMC 廠商引入標(biāo)準(zhǔn)。針對(duì)故障注入進(jìn)行長(zhǎng)時(shí)間壓力測(cè)試，確保硬件廠商都按照騰訊云的標(biāo)準(zhǔn)完成硬件引入。

　　同時(shí)，騰訊云還發(fā)現(xiàn)了多個(gè) CPU架構(gòu)優(yōu)化的案例，通過修改 Linux 內(nèi)核軟件盡量避免觸發(fā)，大大降低了不可恢復(fù)異常的觸發(fā)概率。同時(shí)，騰訊云在CPU廠商的下一代CPU中進(jìn)行改進(jìn)優(yōu)化。

　　對(duì)于Linux內(nèi)核對(duì)MCA Recovery的支持，騰訊云也針對(duì)性對(duì)內(nèi)核的內(nèi)存管理模塊和KVM進(jìn)行優(yōu)化。

　　相關(guān)的優(yōu)化，在騰訊云基于Intel Skylake及其以后代次的云服務(wù)器上都以全面落地。

　　除了 Intel，騰訊云還聯(lián)合 AMD 落地多項(xiàng)內(nèi)存RAS 特性，結(jié)合其他多項(xiàng)硬件可用性優(yōu)化措施，提升騰訊云AMD云服務(wù)器SA2實(shí)例的可用性。

　　目前，騰訊云成為首家在數(shù)據(jù)中心中大規(guī)模使用MCA Recovery技術(shù)的公司，通過一系列的軟硬件結(jié)合優(yōu)化，騰訊云 CVM 云服務(wù)器通過 MCA Recovery 已規(guī)避大量的內(nèi)存 UCE 錯(cuò)誤，大大降低了內(nèi)存故障率，將騰訊云云服務(wù)器的可用性做到了業(yè)界領(lǐng)先。

　　第二個(gè)技術(shù)點(diǎn)是熱遷移技術(shù)。

　　支持了 MCA Recovery等高級(jí)RAS特性后，騰訊云當(dāng)物理服務(wù)器出現(xiàn)硬件隱患時(shí)，雖然不會(huì)宕機(jī)，但是已經(jīng)存在隱患了，需要盡快下線維修。這個(gè)時(shí)候正在運(yùn)行的云服務(wù)器怎么辦？

　　針對(duì)這個(gè)問題，騰訊云用熱遷移技術(shù)來解決，可以把云服務(wù)器從一臺(tái)物理機(jī)無感知遷移另一臺(tái)，當(dāng)一臺(tái)物理機(jī)存在硬件隱患時(shí)，把云服務(wù)器遷移到另一臺(tái)正常的物理機(jī)上。因此，通過熱遷移技術(shù)，騰訊云將云服務(wù)器的可用性提升到高于物理機(jī)本身的可用性。

　　熱遷移示意圖

　　在大規(guī)模落地時(shí)，熱遷移的難度體現(xiàn)在兩個(gè)方面，一個(gè)是熱遷移的成功率，如果熱遷移所以來的服務(wù)器負(fù)載過高，則熱遷移可能失敗，為了提高熱遷移的成功率，騰訊云使用了包括RDMA 在內(nèi)的多個(gè)熱遷移優(yōu)化，將熱遷移成功率從原來的 70% 提升至 99%；第二個(gè)難點(diǎn)在于盡量減少熱遷移的停機(jī)時(shí)間，目前騰訊云可實(shí)現(xiàn)在 50 毫秒以內(nèi)的熱遷移停機(jī)時(shí)間，基本上可以達(dá)到無感知的水平。

　　挑戰(zhàn)二：如何降低虛擬化帶來的損耗？

　　第二個(gè)挑戰(zhàn)是，虛擬化在同一個(gè)物理機(jī)虛擬多個(gè)虛擬機(jī)帶來靈活性，但同時(shí)虛擬化本身會(huì)有一些性能損耗，業(yè)務(wù)希望虛擬化技術(shù)要保證性能與物理機(jī)相匹配，盡量減少虛擬化的損耗，這也是虛擬化技術(shù)面臨的很大的挑戰(zhàn)。

　　在降低虛擬化性能損耗上，陳立東以騰訊內(nèi)部自研上云的過程舉例。項(xiàng)目啟動(dòng)不久，微信同事在測(cè)試時(shí)反饋其中一個(gè)模塊性能下降超過 30%。為此，騰訊云投入了多個(gè)資深開發(fā)工程師進(jìn)行分析，共做了 7 輪優(yōu)化，最終將 KVM 的虛擬化損耗降低到 5%。

　　針對(duì) Linux 子機(jī)場(chǎng)景，騰訊云也做了一些與 KVM 虛擬化本身結(jié)合性的性能優(yōu)化，對(duì)外推出了騰訊的 Linux 的發(fā)行版 Tencent Linux，目前已經(jīng)開源。

　　另外，騰訊云還針對(duì) Windows 子機(jī)進(jìn)行了大量?jī)?yōu)化，逆向分析Windows內(nèi)核邏輯，專門優(yōu)化了 KVM 對(duì) Windows內(nèi)核的支持，大大提升了 Windows 云服務(wù)器在騰訊云上的性能。

　　挑戰(zhàn)三：如何提升虛擬化的穩(wěn)定性？

　　第三點(diǎn)挑戰(zhàn)是在虛擬化后，包括 CPU 和內(nèi)存都多出一個(gè)虛擬化層。業(yè)務(wù)希望虛擬化需要和物理機(jī)一樣的穩(wěn)定性，滿足業(yè)務(wù)對(duì)響應(yīng)延時(shí)的極致追求。

　　除了一些性能測(cè)試工具跑分的峰值性能，騰訊云更注重性能的穩(wěn)定性和業(yè)務(wù)的實(shí)際體現(xiàn)。

　　陳立東提到，Linux本身的內(nèi)核度算法是CFS，但是分析了以后，Linux本身的CFS調(diào)度算法并不適合完全滿足虛擬化場(chǎng)景的需求，因此騰訊云針對(duì)虛擬化場(chǎng)景，自研了一套Linux內(nèi)核的調(diào)度的算法，在內(nèi)部稱之為VMF。這套算法的核心思想要保證虛擬機(jī)的任務(wù)要優(yōu)先執(zhí)行。通過該技術(shù)，騰訊云將虛擬化場(chǎng)景下的調(diào)度延時(shí)做到和物理機(jī)持平的穩(wěn)定性。

　　挑戰(zhàn)四：如何快速交付？

　　第四點(diǎn)就是交付的效率，使用云后，客戶希望盡可能快速地獲得大量計(jì)算資源，如何為客戶提供秒級(jí)交付體驗(yàn)也是一個(gè)挑戰(zhàn)。

　　早期騰訊云的客戶反饋GPU機(jī)型，購(gòu)買后啟動(dòng)比較慢，需要等幾分鐘后才能啟動(dòng)，影響使用體驗(yàn)。虛擬機(jī)啟動(dòng)的時(shí)候，提前分配并鎖住全部的虛擬機(jī)內(nèi)存，而虛擬機(jī)內(nèi)存越大，啟動(dòng)就越慢。這給用戶帶來非常糟糕的體驗(yàn)，當(dāng)時(shí)也是所有云廠商都存在的一個(gè)問題。

　　在優(yōu)化前，一臺(tái)700G規(guī)格的一個(gè)虛擬化啟動(dòng)，在之前啟動(dòng)需要大概270秒，優(yōu)化以后，將其啟動(dòng)時(shí)間縮短了22秒，大大提升了用戶的體驗(yàn)，騰訊云將相關(guān)的優(yōu)化補(bǔ)丁已經(jīng)貢獻(xiàn)到了社區(qū)。

　　輕量級(jí)虛擬化是未來發(fā)展方向

　　從騰訊虛擬化技術(shù)的演進(jìn)路線中，可以看到虛擬化技術(shù)當(dāng)前存在的一些技術(shù)難點(diǎn)與熱點(diǎn)，希望對(duì)云計(jì)算開發(fā)者帶來一定的借鑒意義。

　　最后，陳立東還談到了虛擬化技術(shù)未來發(fā)展的趨勢(shì)和方向。他認(rèn)為，虛擬化將來一個(gè)很大的發(fā)展方向就是輕量級(jí)虛擬化，而要實(shí)現(xiàn)這一點(diǎn)需要要把虛擬化層做得盡量簡(jiǎn)單，從而降低損耗。

　　“總的來說，要實(shí)現(xiàn)把物理資源進(jìn)行拆分的情況下，盡量減少虛擬化的損耗，這對(duì)整個(gè)底層的挑戰(zhàn)還是非常大的。”陳立東指出。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

騰訊云首次披露虛擬化技術(shù)發(fā)展線路圖，看好輕量級(jí)虛擬化的潛力

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)