
股票市場(chǎng)上的投資者往往依賴(lài)金融風(fēng)險理論來(lái)幫助他們獲得最大化投資回報,同時(shí)又能將市場(chǎng)波動(dòng)造成的金融損失降至最小。這些理論幫助投資者保持一個(gè)平衡的投資組合,以確保他們在任何時(shí)候都不會(huì )損失超過(guò)他們愿意放棄的錢(qián)。
受這些理論的啟發(fā),MIT計算機科學(xué)與人工智能實(shí)驗室(CSAIL)的研究人員與微軟合作開(kāi)發(fā)了一個(gè)“風(fēng)險意識”數學(xué)模型,可以提高全球云計算網(wǎng)絡(luò )的性能。畢竟,云計算的基礎設施極其昂貴,消耗了世界上大量的能源。
數據連接失敗概率,類(lèi)比股價(jià)的波動(dòng)
他們的模型考慮了全球數據中心之間鏈接失敗的概率——類(lèi)似于預測股票的波動(dòng)性。然后,它運行一個(gè)優(yōu)化引擎,通過(guò)最佳路徑分配流量,以最小化損失,同時(shí)最大化網(wǎng)絡(luò )的整體利用率。

該模型可以幫助市面上的主要云服務(wù)提供商——如微軟、亞馬遜和谷歌——更好地利用其基礎設施。傳統方法是保持鏈路空閑,以處理鏈路故障導致的意外流量轉移,這是對能量、帶寬和其他資源的浪費。
另一方面,這個(gè)名為T(mén)eaVar的新模型保證了在一定的目標時(shí)間百分比內(比如99.9%)內網(wǎng)絡(luò )能夠處理所有數據流量,因此沒(méi)有必要保持任何鏈接空閑。在那0.1%的例外時(shí)間內,模型也會(huì )將數據中斷的可能性保持得越低越好。
在基于真實(shí)數據的實(shí)驗中,該模型支持的流量是傳統方式的三倍,同時(shí)保持了相同高的網(wǎng)絡(luò )可用性。一篇描述模型和結果的論文將在本周的ACM SIGCOMM會(huì )議上發(fā)表。
麻省理工學(xué)院電子工程和計算機科學(xué)系TIBCO職業(yè)發(fā)展助理教授、該研究的合著(zhù)者M(jìn)anya Ghobadi說(shuō),更好地利用網(wǎng)絡(luò )可以為服務(wù)提供商節省數百萬(wàn)美元,這些好處同時(shí)也會(huì )惠及到消費者身上。
Ghobadi說(shuō):“更好地利用基礎設施不僅對云服務(wù)有好處,對世界也有好處。企業(yè)不需要購買(mǎi)那么多基礎設施來(lái)向客戶(hù)銷(xiāo)售服務(wù)。此外,能夠有效地利用數據中心資源可以節省云基礎設施的大量能源消耗。所以,這對用戶(hù)和環(huán)境都是好的。”
Ghobadi的論文作者中包括她的學(xué)生Jeremy Bogle和Nikhil Bhatia,他們都是CSAIL的學(xué)生;微軟研究院的Ishai Menache和Nikolaj Bjorner,以及希伯來(lái)大學(xué)的Asaf Valadarsky和Michael Schapira。
權衡可用性和利用率,成本最小化
云服務(wù)提供商使用運行在地下的光纖電纜網(wǎng)絡(luò ),連接不同城市的數據中心。為了路由流量,提供商依賴(lài)于“流量工程”( traffic engineering ,TE)軟件,該軟件可以通過(guò)所有網(wǎng)絡(luò )路徑優(yōu)化分配數據帶寬(一次可以傳輸的數據量)。
其目標是確保世界各地的用戶(hù)獲得最大的可用性。但是,當一些連接可能意外失敗時(shí),這就很有挑戰性了,比如斷電時(shí)導致信號質(zhì)量下降,或者施工造成的線(xiàn)路中斷等因素。為了減輕這些意外事故帶來(lái)的影響,供應商將許多鏈接的利用率保持在非常低的水平,只是在那里等著(zhù)在需要時(shí)從被迫關(guān)閉的鏈接中承受全部數據負載。
因此,在網(wǎng)絡(luò )可用性和利用率之間,這是一個(gè)微妙的權衡,這將實(shí)現更高的數據吞吐量。研究人員說(shuō),這就是傳統TE方法失敗的地方。他們基于各種因素找到最佳路徑,卻不量化鏈路的可靠性。Bogle說(shuō):“他們不會(huì )說(shuō),‘這條鏈路啟動(dòng)和運行的概率更高,所以這意味著(zhù)你應該在這里發(fā)送更多的流’。”網(wǎng)絡(luò )中的大多數鏈路利用率都很低,發(fā)送的流量也沒(méi)有達到預期的水平。"
于是,研究人員設計了一個(gè)TE模型,該模型采用了核心數學(xué)中的“風(fēng)險條件價(jià)值”, 這是一種量化平均資金損失的風(fēng)險評估方法。在投資股票時(shí),如果你今天99%的條件價(jià)值風(fēng)險為50美元,那么你當天最壞情況1%的預期損失就是50美元。但99%的情況下,你會(huì )做得更好。這一指標用于投資股市,而股市是出了名的難以預測。

“但數學(xué)實(shí)際上更適合我們的云基礎設施設置,” Ghobadi說(shuō)。“大多數情況下,鏈路故障是由于設備老化造成的,因此故障概率不會(huì )隨著(zhù)時(shí)間的推移發(fā)生很大變化。這意味著(zhù)與股市相比,我們的概率更可靠。”
風(fēng)險意識模型
在網(wǎng)絡(luò )中,數據帶寬份額類(lèi)似于投入的“錢(qián)”,具有不同故障概率的網(wǎng)絡(luò )設備是“股票”及其股價(jià)變化的不確定性。利用這些基本公式,研究人員設計了一個(gè)“風(fēng)險意識”模型,與金融模型一樣,該模型保證數據在99.9%的時(shí)間內到達目的地,但在0.1%的最壞情況下,流量損失最小。這幫助了云提供商調優(yōu)可用性和利用率之間的權衡。
研究人員將微軟連接其數據中心的網(wǎng)絡(luò )三年的網(wǎng)絡(luò )信號強度映射到鏈路故障的概率分布上。輸入是圖形中的網(wǎng)絡(luò )拓撲,數據源-目的地數據流通過(guò)線(xiàn)路(鏈路)和節點(diǎn)(城市)連接,每條鏈路分配一個(gè)帶寬。
每隔15分鐘對每個(gè)環(huán)節的信號質(zhì)量進(jìn)行檢測,得到故障概率。如果信號質(zhì)量低于接收閾值,他們認為這是鏈路故障。高于接收閾值即意味著(zhù)鏈接已經(jīng)啟動(dòng)并運行。在此基礎上,該模型生成了每個(gè)鏈接上升或下降的平均時(shí)間,并計算了每個(gè)鏈接在每個(gè)15分鐘時(shí)間窗口的失敗概率(或“風(fēng)險”)。從這些數據中,它能夠預測在任何給定的時(shí)間段內,風(fēng)險鏈接什么時(shí)候會(huì )失效。
研究人員將該模型與其他TE軟件進(jìn)行了測試,測試對象是通過(guò)遍布全球的谷歌、IBM、ATT和其他網(wǎng)絡(luò )發(fā)送的模擬流量。研究人員根據故障發(fā)生的概率創(chuàng )建了各種故障場(chǎng)景。然后,他們通過(guò)網(wǎng)絡(luò )發(fā)送模擬的和真實(shí)的數據需求,并提示他們的模型開(kāi)始分配帶寬。
研究人員的模型將相對可靠的鏈接保持在接近滿(mǎn)負荷的狀態(tài),同時(shí)引導數據遠離風(fēng)險更高的鏈接。與傳統方法相比,他們的模型通過(guò)網(wǎng)絡(luò )運行的數據是傳統方法的三倍,同時(shí)仍然確保所有數據都到達目的地。
相關(guān)報道:
https://www.csail.mit.edu/news/using-wall-street-secrets-make-cloud-computing-cheaper
https://github.com/manyaghobadi/teavar