那么,如果 IM 消息是物,音視頻內容是物,那么全球通信網(wǎng)就是負責傳輸的物流系統。在物理距離恒定的前提下,對于路由跳數、網(wǎng)絡(luò )帶寬、網(wǎng)絡(luò )質(zhì)量和緩存隊列的設計和優(yōu)化,決定了系統能否做到高質(zhì)量、低延遲的傳輸。
這是融云首席架構師李淼在 WICC 廣州“出海分論壇”中分享的話(huà)題引子。也因此,李淼關(guān)于《全球低延遲通信網(wǎng)絡(luò )的設計與優(yōu)化》的話(huà)題分享變得更加具象。

RTC 與 IM 全球網(wǎng)絡(luò )的設計有所同,有所不同
融云全球通信網(wǎng)絡(luò )分為 RTC 全球網(wǎng)絡(luò )和 IM 全球通信絡(luò )兩個(gè)部分,這是由于 RTC 和 IM 在傳輸中不同的加速特點(diǎn)所決定。

RTC 網(wǎng)絡(luò )與 IM 網(wǎng)絡(luò )
- 相同點(diǎn)在于:二者可在數據中心、節點(diǎn)等多項物理設施上進(jìn)行復用,并且都必須保證高質(zhì)量、低延遲的傳輸,從而為用戶(hù)帶來(lái)極佳的場(chǎng)景體驗。
- 不同點(diǎn)在于:RTC 基于 UTP 協(xié)議運行,對于用戶(hù)體驗而言,允許有一定的丟包率,但對于延時(shí)要求苛刻;而 IM 基于 TCP 協(xié)議進(jìn)行業(yè)務(wù)承載,在要求消息不能丟失的同時(shí),需要消息的集中存儲,不僅能為用戶(hù)不在線(xiàn)時(shí)存儲離線(xiàn)消息,還要根據業(yè)務(wù)類(lèi)型,進(jìn)行歷史消息的存儲。
因此,融云對于 RTC 的設計,是完全去中心化的分布式通信網(wǎng)絡(luò )。好處是在后續進(jìn)行網(wǎng)絡(luò )優(yōu)化時(shí),可以隨意增加媒體節點(diǎn)部署,而不影響用戶(hù)的任何使用體驗。
融云 IM 的網(wǎng)絡(luò )設計采用的是將數據流量導入到數據中心的方式,已陸續在國內、北美和新加坡分別設立了數據中心,目前已迭代至基于 Anycast 的一體化加速網(wǎng)。特點(diǎn)在于多協(xié)議支持、多數據中心支持,并且,基于 SmartDNS & Anycast 的加速原理可以更高質(zhì)量地保證在全球范圍內,節點(diǎn)分配的準確度。此外,IM 的許多全球鏈路優(yōu)化工作,都可以在 RTC 上復用。
了解完以上架構,重點(diǎn)來(lái)了:融云是如何進(jìn)行延時(shí)優(yōu)化的呢?這需要分別從 RTC 和 IM 兩個(gè)方向進(jìn)行解析。
如何降低 RTC 的網(wǎng)絡(luò )延時(shí)

RTC 通信過(guò)程
對于 RTC 而言,能降低延時(shí)最好的辦法,就是提高 RTC 節點(diǎn)的覆蓋率,目的在于縮短用戶(hù)與邊緣節點(diǎn)的物理距離,也就意味著(zhù)以更少的跳數完成連接。
融云對于節點(diǎn)的選擇先是要保證大洲級的全覆蓋,再是對熱門(mén)區域進(jìn)行重點(diǎn)覆蓋。所選節點(diǎn)基于一線(xiàn) IaaS 廠(chǎng)商的公有云服務(wù)搭建,每個(gè)節點(diǎn)之間都可通過(guò)專(zhuān)線(xiàn)互聯(lián)。不但可以提升鏈路傳輸的穩定性,還可以降低 RTC 節點(diǎn)的跳數,甚至可以做到 0 跳或者 1 跳。
優(yōu)化的難點(diǎn)在于:如何讓用戶(hù)選擇到質(zhì)量最好的節點(diǎn)。通常最直觀(guān)的辦法是通過(guò)智能 DNS 解析,但融云經(jīng)過(guò)驗證發(fā)現,準確度率只在 80% 左右。為此,融云在之后增加了 IP Anycast,它跟 DNS 原理完全不同,可直接通過(guò) IP 的方式來(lái)進(jìn)行分配,這個(gè)分配是運營(yíng)商級的。
在鏈路探測方面,物理距離最近的 IDC 未必就是質(zhì)量最好的節點(diǎn),即便采用 smart DNS+IP Anycast,準確度依然無(wú)法達到 100%。為此,融云增加了客戶(hù)端的探測能力,在用戶(hù)連接時(shí)下發(fā) N 個(gè)地址。客戶(hù)端根據下發(fā)地址進(jìn)行探測,擇優(yōu)選擇鏈路連接。據日志分析,準確度達 99.5% 以上。
同云連接可以通過(guò)鏈路優(yōu)化來(lái)保證,那么跨云又該怎么辦呢?
融云的做法是通過(guò)二級級聯(lián),將數據中心之間的流量通過(guò)所采購的 SD-WAN 進(jìn)行導入導出。這其中,級聯(lián)優(yōu)化至關(guān)重要。
比如,一個(gè)北美用戶(hù)跟一個(gè)國內用戶(hù)通信,融云會(huì )先在北美與香港之間進(jìn)行專(zhuān)線(xiàn)互聯(lián),然后香港再與國內的節點(diǎn)進(jìn)行專(zhuān)線(xiàn)互聯(lián)。這種通過(guò)香港節點(diǎn)進(jìn)行轉發(fā)的方案,能夠在保證質(zhì)量的前提下,達到低延時(shí)的網(wǎng)絡(luò )優(yōu)化效果。
但難點(diǎn)在于:故障降級。傳輸過(guò)程中,同云的專(zhuān)線(xiàn)和 SD-WAN 都可能會(huì )出現故障。盡管故障的概率極低,但一旦故障發(fā)生,就必須有所取舍,為了保證用戶(hù)能夠正常接聽(tīng)互通,只能選擇將整個(gè)通訊鏈路進(jìn)行降級。比如當專(zhuān)線(xiàn)出問(wèn)題時(shí),會(huì )通過(guò)二級級聯(lián)的方式,進(jìn)行節點(diǎn)的跳轉,或者直接通過(guò)互聯(lián)網(wǎng)公網(wǎng)的方式進(jìn)行數據的轉發(fā)。
此外,要降延就要有完善的網(wǎng)絡(luò )延時(shí)監控系統。融云在客戶(hù)端建設了各種標準的 QoS 監測系統,包括數據實(shí)時(shí)上報和后臺分析。
如何降低 IM 的網(wǎng)絡(luò )延時(shí)
IM 的網(wǎng)絡(luò )延時(shí)優(yōu)化途徑主要集中于節點(diǎn)間數據轉發(fā)和證書(shū)計算前置兩個(gè)方面。
在節點(diǎn)數據的轉發(fā)方面:由于 IM 數據基于 TCP 協(xié)議傳輸,但 TCP 的擁塞控制和丟包重傳策略并不友好,因此融云將部分 TCP 協(xié)議替換成 QUIC 協(xié)議,也就是說(shuō),從物理距離最遠的邊緣節點(diǎn)到路由節點(diǎn)數據的傳輸,融云都通過(guò) QUIC 進(jìn)行了優(yōu)化。

IM 全球網(wǎng)絡(luò )的歷程
通過(guò) QUIC 優(yōu)化,首先可以避免在邊緣點(diǎn)跟路由節點(diǎn)之間,TCP 的三次握手,直接將 TLS RTT 降為 0;其次是當網(wǎng)絡(luò )抖動(dòng)時(shí),QUIC 有更友好的丟包重傳策略,可以做到丟哪個(gè)包就補哪個(gè)包,而不會(huì )像 TCP 那樣,一旦丟包,后續所有的包都要進(jìn)行重傳。內測表明,這一優(yōu)化,使整個(gè)網(wǎng)絡(luò )延時(shí)降低了 15% 左右。
在證書(shū)計算前置方面:融云采取將 TLS 證書(shū)和 SSL 的證書(shū),在邊緣節點(diǎn)上直接進(jìn)行交換的方式。這樣一來(lái),首先是減少了用戶(hù)數據到數據中心之間的整體的 RTT,可將 RTT 直接降到 0。其次,IM 多有小包通訊的場(chǎng)景,例如一個(gè)信令包只有 10-20 個(gè)字節,通過(guò)在邊緣點(diǎn)上將數據包進(jìn)行解密,明文傳遞到融云的路由節點(diǎn),再進(jìn)行加密傳到數據中心,大大降低了兩個(gè)最遠物理距端點(diǎn)間的數據傳輸量。
需要說(shuō)明的是,用戶(hù)完全無(wú)需擔心數據的安全問(wèn)題。因為融云的邊緣節點(diǎn)和路由節點(diǎn)全部由融云控制,均為受信網(wǎng)絡(luò )。但如果是必須要在公網(wǎng)完成數據傳輸,融云仍然會(huì )通過(guò)傳統 TLS 方式來(lái)進(jìn)行數據鏈路加密。
當然,融云對 IM 的優(yōu)化策略遠不止于此,更多表現在客戶(hù)端及服務(wù)端日志的收集、zero copy、多路復用、IP 直連和 QoS 保證等多個(gè)方面。
比如對日志的收集,融云每發(fā)一個(gè) SDK 版本,都會(huì )增加新的日志埋點(diǎn),用于分析業(yè)務(wù)、分析網(wǎng)絡(luò )等,以此進(jìn)行一些定向或定點(diǎn)區域的優(yōu)化。
在談及未來(lái)計劃時(shí),李淼指出,融云將不計成本,不遺余力地繼續加大網(wǎng)絡(luò )建設力度,為開(kāi)發(fā)者提供更加優(yōu)質(zhì)的服務(wù)。就研發(fā)而言,將持續提升軟件本身的處理能力,不斷豐富數據收集的手段,同時(shí)提升數據預估的準確性。