
斯坦福大學(xué)的一個(gè)科研項目——Salsify已經(jīng)可以為實(shí)時(shí)通信應用(比如電話(huà)會(huì )議)提供更好的視頻傳輸方式。
他們沒(méi)有創(chuàng )建新的視頻格式,而是創(chuàng )建了一種用于實(shí)時(shí)視頻系統的新架構。Salsify并沒(méi)有使用現有的兩個(gè)獨立控制環(huán)路的方式(其中一個(gè)用于傳輸,另一個(gè)用于視頻編解碼器),而是將他們連接成一個(gè)統一的控制環(huán)路來(lái)共同管理傳輸和視頻編解碼器。
視頻編碼器目前就像一個(gè)黑盒子——編/解碼功能將視頻轉化成適合傳輸的大小,之后用傳輸協(xié)議進(jìn)行視頻的分發(fā)。Salsify項目使得整個(gè)系統對可用帶寬的變化響應更加快速。從理論上講,Salsify會(huì )帶來(lái)更好的整體體驗。
當前的傳輸方式
目前的視頻傳輸框架,視頻編解碼器和傳輸協(xié)議各自獨立運行,導致視頻流對于網(wǎng)絡(luò )來(lái)說(shuō)可能太大或太小。斯坦福博士候選人和Salsify項目成員Sadjad Fouladi希望所交付的視頻適合網(wǎng)絡(luò )狀況,從而減少故障和連接丟失,并減少緩存。
他們創(chuàng )建了一個(gè)實(shí)時(shí)視頻系統,能夠快速響應不斷變化的網(wǎng)絡(luò )狀況并避免擁塞和故障。Salsify會(huì )根據當前網(wǎng)絡(luò )容量的估算值來(lái)提供在這種情況下可以交付的視頻幀。
他們的研究項目與FaceTime,Google Hangouts,Skype和WebRTC在谷歌瀏覽器中的參考實(shí)現相比,無(wú)論是否支持可伸縮視頻編碼(SVC),都能實(shí)現更低的視頻延遲和更好的視頻質(zhì)量。對于視頻會(huì )議,遠程醫療或其他對視頻傳輸延遲比較敏感的實(shí)時(shí)通信而言,低延遲比實(shí)時(shí)流式傳輸更為重要。
Fouladi說(shuō),“很多人在視頻會(huì )議中遇到過(guò)連接不暢以及視頻質(zhì)量較差的情況,我們認為問(wèn)題不在于編解碼器,也不在于傳輸,而在于這些組件的集成方式。但是這些系統的整體性能并沒(méi)有得到太大的提升,所以我們認為現在應該為整個(gè)系統建立新的架構,而不是改進(jìn)單個(gè)組件。”
低延遲
Fouladi說(shuō),在諸如Skype的產(chǎn)品或WebRTC的協(xié)議中,傳輸協(xié)議不能很好地控制流。即使現在由于連接不通或網(wǎng)絡(luò )擁塞不適合發(fā)送數據,傳輸協(xié)議仍然需要發(fā)送已經(jīng)編碼的幀。
目前的傳輸協(xié)議對傳送給視頻編解碼器的網(wǎng)絡(luò )速度有一定的估計。單幀的輸出大小通常低于或超過(guò)估計的網(wǎng)絡(luò )速度。如果該幀太大或太小,則會(huì )通過(guò)調整下一幀進(jìn)行補償。
在大約十到二十幀的過(guò)程中,它達到了平均網(wǎng)絡(luò )速度。所以雖然理論上自糾正機制可行,但實(shí)際上一個(gè)比較大的幀仍然會(huì )導致?lián)砣蛠G包,這將導致流延遲。此外,僅在平均水平上達到一定碼率會(huì )使系統對網(wǎng)絡(luò )變化反應遲鈍。
底層
Salsify只關(guān)注下一幀的大小,而不是像之前編解碼器那樣根據平均比特率來(lái)進(jìn)行編碼。它的目標是確保沒(méi)有任何視頻幀會(huì )導致網(wǎng)絡(luò )中的丟幀和擁塞。Salsify不是預估編碼參數,而是為每個(gè)視頻幀編碼兩個(gè)質(zhì)量略有不同的版本,然后選擇適合網(wǎng)絡(luò )條件的版本并隨時(shí)進(jìn)行調整。“通過(guò)這種方式,傳輸過(guò)程可以對視頻進(jìn)行逐幀控制,并且可以更快地響應不斷變化的網(wǎng)絡(luò )條件。”Fouladi說(shuō)。
Salsify的功能性視頻編解碼器為視頻編解碼器提供了一個(gè)保存/恢復狀態(tài)的接口,使其能夠更加方便地執行不同的參數配置,從而為傳輸提供了一個(gè)選項菜單。在傳統的編解碼器中,如果一幀被編碼,它就成為了視頻流的一部分,并且必須被發(fā)送,而在Salsify的編解碼器中,該幀可以被丟棄并且舊狀態(tài)可以恢復。
“所以在這種情況下,如果網(wǎng)絡(luò )出現故障或者發(fā)生了非常糟糕的狀況,那么即便編解碼器已經(jīng)編碼出可用幀,傳輸端都可以停止發(fā)送,以避免造成更嚴重的擁塞”,Fouladi說(shuō)。與FaceTime,Hangouts,Skype和WebRTC相比,該項目使用該團隊自主研發(fā)的VP8編解碼器,平均可以帶來(lái)4.6倍p95-delay的降低,以及2.1 dB SSIM的提升,并且有更高的主觀(guān)質(zhì)量。

Fouladi說(shuō),“現在我們可以訪(fǎng)問(wèn)黑盒子的內部,而且可以設計更復雜的系統,可以做更多的事情。我認為這個(gè)項目的目標之一是展示具有這個(gè)接口的好處,并說(shuō)服編解碼器設計者和實(shí)現者在未來(lái)的編解碼器中包含該接口。”
Salsify開(kāi)源編解碼器僅限視頻(無(wú)音頻)。該項目是基于軟件的編解碼器,而且為每一幀編碼兩個(gè)版本會(huì )明顯增大計算開(kāi)銷(xiāo)。為了在硬件上實(shí)現,他們將有與AV1一樣漫長(cháng)的道路要走,因此為了Salsify的實(shí)際應用,需要有更加創(chuàng )造性的思維。雖然他們面臨很多挑戰,但Salsify團隊已經(jīng)制定了一種方法來(lái)解決長(cháng)期存在的問(wèn)題。
LiveVideoStackCon 2018講師招募
LiveVideoStackCon 2018是音視頻技術(shù)領(lǐng)域的綜合技術(shù)大會(huì ),今年是在10月19-20日在北京舉行。大會(huì )共設立16個(gè)專(zhuān)題,預計邀請超過(guò)80位技術(shù)專(zhuān)家。如果你在某一領(lǐng)域獨當一面,歡迎申請成為L(cháng)iveVideoStackCon 2018的講師,讓你的經(jīng)驗幫到更多人,你可以通過(guò)speaker@livevideostack.com 提交演講信息。了解大會(huì )更多詳情,請點(diǎn)擊『閱讀原文』訪(fǎng)問(wèn)LiveVideoStackCon 2018官網(wǎng),即刻享受6折優(yōu)惠。