
經(jīng)過(guò)多年的技術(shù)發(fā)展,目前互聯(lián)網(wǎng)視頻的觀(guān)看視頻體驗仍然無(wú)法滿(mǎn)足用戶(hù)預期,因此我們需要應用更新的技術(shù)來(lái)持續超越傳統在線(xiàn)觀(guān)影體驗。與此同時(shí),長(cháng)周期、大投入的視頻內容源,成為“超高清”大規模落地的瓶頸。如何讓新片在制作階段就滿(mǎn)足超高清要求?如何增強用戶(hù)的觀(guān)看體驗?如何通過(guò)高清修復技術(shù)讓經(jīng)典老片換新顏?這些問(wèn)題都將通過(guò)下文一一解答。本文內容來(lái)自阿里巴巴高級技術(shù)專(zhuān)家梅大為在LiveVideoStackCon2019北京站上的精彩分享。
大家好,我是阿里巴巴高級技術(shù)專(zhuān)家梅大為,本次分享的主題是優(yōu)酷在超高清視頻技術(shù)的實(shí)踐,主要內容是優(yōu)酷在超高清視頻技術(shù)上的理解和思考,以及在超高清視頻上進(jìn)行修復增強的具體實(shí)踐。大眾在互聯(lián)網(wǎng)上觀(guān)看視頻,除了視頻本身的內容和VIP的價(jià)格以外,最關(guān)注的的應該就是視頻的觀(guān)看體驗。根據優(yōu)酷的用戶(hù)調查數據來(lái)看,很大部分的用戶(hù)在選擇視頻APP時(shí)更關(guān)注是否有藍光、4K或者HDR、杜比音效這些選項,也有70%的用戶(hù)會(huì )在觀(guān)看視頻1分鐘后因為視頻清晰度的原因而棄劇,這兩個(gè)數據都體現出視頻觀(guān)看體驗對用戶(hù)的重要性。
1. 超高清視頻體驗

經(jīng)過(guò)這么多年的發(fā)展,目前互聯(lián)網(wǎng)視頻的觀(guān)看體驗仍然無(wú)法滿(mǎn)足用戶(hù)預期,以《血戰鋼鋸嶺》中的片段作比較,對比三家藍光流和介質(zhì)質(zhì)量可以發(fā)現,騰訊、優(yōu)酷、愛(ài)奇藝三家藍光流的質(zhì)量都小于原始介質(zhì)質(zhì)量,網(wǎng)友知乎@馬小帥也很直接的指出了其中關(guān)于碼率的問(wèn)題,碼率相較原片相差很多倍,清晰度自然也會(huì )有差異。
2. 高清不清晰的原因

碼率受限確實(shí)是目前互聯(lián)網(wǎng)視頻“高清不清”的主要原因,而碼率問(wèn)題也主要受限于網(wǎng)站帶寬成本和用戶(hù)網(wǎng)絡(luò )條件兩個(gè)方面,從視頻網(wǎng)站來(lái)考慮的話(huà),碼率意味著(zhù)帶寬,帶寬意味著(zhù)成本,在視頻網(wǎng)站多數都還在虧損的大環(huán)境下,加大在帶寬上的投入是比較困難的。如果從用戶(hù)角度來(lái)看碼率受限的問(wèn)題,可以看到目前多數用戶(hù)的有效帶寬還是在幾兆到十幾兆的范圍內。因此視頻網(wǎng)站的核心技術(shù)問(wèn)題是如何做到窄帶高清,在保障帶寬不增長(cháng)的前提下提供更優(yōu)質(zhì)的視頻體驗,提升單位帶寬承載的信息量。
3. 優(yōu)酷超高清視頻之路
3.1 窄帶高清

窄帶高清目前有很多公司都在做,而優(yōu)酷主要基于硬壓縮能力和內容分析理解兩方面來(lái)解決窄帶高清的問(wèn)題,提升壓縮工具的硬壓縮能力,不斷適應新的標準,在同一個(gè)標準體系框架內也可以不斷地迭代壓縮算法。從壓縮對象/視頻內容來(lái)講的話(huà),根據對質(zhì)量貢獻的不同將內容進(jìn)行分類(lèi),比如噪聲、干擾對視頻清晰度有副作用內容,以及背景和雜亂的細節、人臉特寫(xiě)等內容,將其進(jìn)行區別的視頻處理和壓縮,以此達到最優(yōu)帶寬和清晰度的效果。基于這兩點(diǎn)優(yōu)酷也在前幾年推出了窄帶高清2.0版本,在業(yè)界有一些不錯的反響。
3.2 從窄帶高清到超高清

從窄帶高清到超高清是一個(gè)巨大的跳躍,因為窄帶高清歸根結底還是個(gè)轉碼技術(shù),追求的目標是在轉碼過(guò)程中的損失最小,而超高清是一個(gè)端到端全鏈條的體驗技術(shù),關(guān)注的不僅僅是轉碼,還包括轉碼前的介質(zhì)和轉碼后流渲染的質(zhì)量,超高清各項數據指標如上圖所示。
從視頻生產(chǎn)消費的全鏈條中來(lái)看優(yōu)酷實(shí)現超高清過(guò)程中遇到的問(wèn)題,視頻鏈條主要分為介質(zhì)制作、流生產(chǎn)和終端渲染三個(gè)部分,這三個(gè)部分對于視頻的質(zhì)量和清晰度都非常重要,其中介質(zhì)制作基本決定了視頻清晰度的基礎,這一步處理不好再之后就很難補救,而在流生產(chǎn)轉碼過(guò)程中需要盡量減少壓縮帶來(lái)的損失,盡可能的保留原清晰度,最后在終端渲染方面需要充分利用母帶的能力,做最適合的顏色和亮度呈現。優(yōu)酷在三個(gè)部分所做的工作如上圖所示。
4. 優(yōu)酷超高清實(shí)踐

4.1 介質(zhì)品質(zhì)保障

對于介質(zhì)品質(zhì)保障,優(yōu)酷首先推出了視頻介質(zhì)標準,在此之前由于介質(zhì)來(lái)源很多,介質(zhì)的制作流程各不相同,所以介質(zhì)的畫(huà)質(zhì)也不同。在優(yōu)酷的視頻庫中可以看到各種各樣分辨率的介質(zhì),很多介質(zhì)分辨率和碼率不匹配,最終播放效果就不可能做到清晰,因此優(yōu)酷推出視頻介質(zhì)標準,希望借此規范介質(zhì)的碼率和分辨率,保障在視頻介質(zhì)制作部分不出差錯。

僅僅依靠視頻介質(zhì)標準沒(méi)辦法對介質(zhì)品質(zhì)進(jìn)行保障,因為高碼率和高分辨率并不是高清晰度的充分條件,因此優(yōu)酷利用基于內容理解的線(xiàn)上質(zhì)量檢測系統,對常見(jiàn)的幾種介質(zhì)問(wèn)題分別建模、設計算法、訓練模型和檢測。

有了視頻介質(zhì)標準和質(zhì)量檢測系統還是不能夠充分保障介質(zhì)的品質(zhì),因此需要在后期通過(guò)高質(zhì)剪輯將質(zhì)量檢測中發(fā)現的問(wèn)題解決。優(yōu)酷在這方面也有在做一些嘗試,包括和后期公司進(jìn)行定期交流,了解介質(zhì)在后期公司的處理流程、使用的工具和設置參數,如果遇到疑難素材,優(yōu)酷會(huì )給后期公司開(kāi)放云端修復工具來(lái)處理,完成后期替換和剪輯。
5. 視頻畫(huà)質(zhì)修復

5.1 算法修復

關(guān)于視頻畫(huà)質(zhì)修復很容易讓人聯(lián)想到老電影,老電影也是視頻畫(huà)質(zhì)修復的主要應用場(chǎng)景,優(yōu)酷創(chuàng )立時(shí)間很早,所以視頻庫中有很多老視頻資源,而老視頻資源中存在的最普遍問(wèn)題就是噪聲和模糊,優(yōu)酷的解決方式有母帶介質(zhì)、膠片修復和算法修復三種。首先可以去找版權方拿到更好的介質(zhì)源進(jìn)行替換,但大多時(shí)候版權方也沒(méi)有更好的介質(zhì)。其次可以用當前的介質(zhì)拿去做膠片修復,但膠片修復費時(shí)費力,沒(méi)辦法大規模應用。最后,算法修復的好處是可以做批量化處理,可以設計算法去解決視頻畫(huà)質(zhì)的問(wèn)題,但缺點(diǎn)是通用算法沒(méi)辦法對個(gè)別問(wèn)題進(jìn)行修正,所得到的結果不會(huì )那么穩定。
5.2 視頻去噪

噪聲在視頻中是一個(gè)普遍存在的問(wèn)題,不僅僅出現在老電影中,在新片和特定的場(chǎng)景中也會(huì )出現噪聲,噪聲會(huì )影響主觀(guān)畫(huà)質(zhì),并且噪聲會(huì )使得碼率增加,對壓縮并不友好,因此視頻去噪就顯得尤為重要。

優(yōu)酷面對的視頻種類(lèi)很多,噪聲種類(lèi)也很多。優(yōu)酷使用基于網(wǎng)絡(luò )的去噪方式來(lái)做視頻的去噪處理,要做到兼容噪聲多樣性就需要多種噪聲增強數據去訓練網(wǎng)絡(luò ),使得它可以對不同噪聲進(jìn)行處理。針對噪聲強度的問(wèn)題,優(yōu)酷也有前置的噪聲估計模塊,讓噪聲估計結果來(lái)指導網(wǎng)絡(luò )進(jìn)行去噪處理。最后,視頻去噪有豐富的時(shí)間和空間信息,所以?xún)?yōu)酷使用三維去噪網(wǎng)絡(luò )保證去噪效果的最大化。

關(guān)于去噪流程框圖首先來(lái)看去噪網(wǎng)絡(luò )模塊,三維的卷積去噪網(wǎng)絡(luò )和普通去噪網(wǎng)絡(luò )的不同是,在網(wǎng)絡(luò )輸入除了不同的多幀數據外還包括代表噪聲強度的額外數據輸入,依靠噪聲強度來(lái)指導網(wǎng)絡(luò )進(jìn)行更好的卷積,兼容大噪聲和小噪聲的情況,根據線(xiàn)下運行的數據來(lái)看還是很有效果的,而這個(gè)方法的代價(jià)是需要一個(gè)比較可靠的噪聲強度估計作為前置處理步驟。MEMC又叫做運動(dòng)估計運動(dòng)補償模塊,它的作用是抵消畫(huà)面中的運動(dòng),把相關(guān)的內容在時(shí)間和空間上聚集起來(lái),方便三維的去噪網(wǎng)絡(luò )做卷積處理。

噪聲估計也是視頻去噪中比較經(jīng)典的問(wèn)題,其中目標壓制的噪聲又分為熱噪聲和壓縮噪聲兩類(lèi),對熱噪聲估計采用圖像分塊方差統計量,方法雖然老卻十分有用;對壓縮噪聲的估計采用CNN分類(lèi)網(wǎng)絡(luò ),這兩個(gè)噪聲估計完之后會(huì )將兩個(gè)結果合并形成每一幀的噪聲估計值,把幀間的各種估計效果做融合和后處理。值得一提的是,在后處理中由于噪聲有很強的場(chǎng)景相關(guān)性,在同一個(gè)場(chǎng)景內噪聲是差不多的,但在場(chǎng)景切換時(shí)噪聲會(huì )發(fā)生突變,所以在做噪聲后處理的時(shí)候需要基于場(chǎng)景進(jìn)行噪聲估計,保證后處理后噪聲在一個(gè)場(chǎng)景中是緩變的,去噪效果有一致性,在場(chǎng)景切換時(shí)去噪效果要能夠及時(shí)響應,避免由于場(chǎng)景切換去噪效果出現呼吸效應。

ME、MC在傳統的圖像處理中運用十分普遍,ME更多用于多尺度運動(dòng)搜索,先在大尺度上進(jìn)行運動(dòng)搜索,然后把搜索結果傳遞到小尺度上,這種方式效率很高,既能保證大物體運動(dòng)與場(chǎng)景的一致性,也能保證對小物體與運動(dòng)邊界刻畫(huà)的精細程度。MC的目標是基于匹配score融合當前塊和最佳匹配塊,最終融合需要考慮匹配的程度如何,匹配的越好就越多的使用臨近塊的能量,匹配的越差就越多使用當前塊的能量,這樣做既能保證去噪效果,又能克服匹配很差導致去噪效果不佳。
5.3 老片字幕修復

影視資源的陳舊感雖然多半來(lái)自于內容,但還是有一部分是由于字幕的影響,如果對字幕進(jìn)行修復的話(huà)也可以在一定程度上將老影視資源的觀(guān)看質(zhì)量提升一個(gè)臺階。

字幕修復的流程分為字幕檢測、字幕分割、字幕擦除和字幕回貼四個(gè)步驟,具體實(shí)現過(guò)程由上圖所示。
5.4 算法創(chuàng )造價(jià)值

視頻修復從其他維度來(lái)看算法創(chuàng )造的價(jià)值,左上圖的內容表示的是優(yōu)酷最為關(guān)注的用戶(hù)觀(guān)看時(shí)長(cháng)數據,可以看到在視頻修復前后用戶(hù)的觀(guān)看時(shí)長(cháng)有明顯的提升,對于某些視頻甚至可以達到較修復前幾倍的提升。右上角是從用戶(hù)彈幕數據中觀(guān)察視頻修復對于用戶(hù)的影響,紅色是視頻修復完成的時(shí)間點(diǎn),在修復前彈幕對于畫(huà)質(zhì)的吐槽較多,而修復后彈幕對于畫(huà)質(zhì)清晰的內容逐漸增多。左下相關(guān)媒體對于優(yōu)酷高清畫(huà)質(zhì)的報道,而右下的圖是優(yōu)酷將《士兵突擊》進(jìn)行畫(huà)質(zhì)修復后的一場(chǎng)放映會(huì ),吸引了大量粉絲前來(lái)觀(guān)影,這樣的線(xiàn)下互動(dòng)對優(yōu)酷自身來(lái)講也很有意義。
6. 超高清增強

做超高清增強很大一部分的原因,是由于家用電視的尺寸越來(lái)越大,以更近的距離看更大屏幕的訴求使得用戶(hù)對視頻清晰度有了更高的要求,因此超高清就變得非常有必要。在真正的超高清設備上看超高清的視頻流,觀(guān)感是完全不一樣的。超高清的本質(zhì)是信息量,信息量主要由采集時(shí)獲得的分辨率、幀率、動(dòng)態(tài)范圍和視角決定,超高清在云端重建的時(shí)候就可以補足在采集過(guò)程中沒(méi)有拿到的信息,以此獲得更好的體驗效果。增強手段包括視頻超分辨率、視頻幀率上采樣、SDR轉HDR和視角重建。
6.1 視頻超分辨率問(wèn)題分析

視頻超分辨率目標就是提升空間分辨率,補足內容的高頻細節,其背后的假定是高頻與中低頻有一定的聯(lián)系,通過(guò)中低頻來(lái)做高頻的反演,這一般是通過(guò)深度網(wǎng)絡(luò )來(lái)解決這個(gè)問(wèn)題。另外,噪聲對于視頻增強有很大的干擾,處理不好容易使超分辨率出現bad case,在這部分優(yōu)酷是采用一些適量加噪的數據去訓練網(wǎng)絡(luò ),讓網(wǎng)絡(luò )可以具備一定的抗噪能力。視頻超分辨率問(wèn)題比較復雜,不可能用一個(gè)網(wǎng)絡(luò )去解決所有問(wèn)題,因此優(yōu)酷在這部分把問(wèn)題分為很多類(lèi),做到專(zhuān)網(wǎng)專(zhuān)用來(lái)提升最后的超分效果。最后,提前預估網(wǎng)絡(luò )能力,聚焦目標效果,在做網(wǎng)絡(luò )訓練時(shí)把握尺度,這里需要對訓練數據做預處理,評估訓練難度。
6.2 視頻超分辨率訓練數據產(chǎn)生

由于優(yōu)酷主營(yíng)業(yè)務(wù)是互聯(lián)網(wǎng)視頻,所以關(guān)于視頻訓練的數據非常豐富,同一個(gè)視頻內容既有高清版本又有低清版本,這種情況下就可以對網(wǎng)絡(luò )進(jìn)行真實(shí)的訓練,但通常情況下沒(méi)有這么好的數據對供測試使用,往往只有高清的視頻版本,所以低清視頻更多是靠隨機壓縮、模糊、采樣和噪聲自己生成,根據實(shí)際問(wèn)題來(lái)進(jìn)行調整,這兩種方式都可以產(chǎn)生訓練數據對,最后再經(jīng)過(guò)數據的篩選和重置得到最終的訓練數據對。
6.3 視頻超分辨率訓練數據處理流程

當獲得訓練數據對后,處理流程就更像一個(gè)自然而然的過(guò)程,從輸入視頻開(kāi)始,經(jīng)過(guò)分類(lèi)得到不同的類(lèi)別,不同的類(lèi)別用不同的網(wǎng)絡(luò )處理,最后得到超分結果。流程圖雖然簡(jiǎn)單,但涉及分類(lèi)的部分其實(shí)非常復雜,首先可根據內容標簽將視頻分為電影、動(dòng)漫、電視劇等類(lèi)型,也可以根據內容來(lái)源和屬性分為DVD超分1080P、1080P超分4K等類(lèi)型,核心思想是把退化方式相近的視頻分成同一類(lèi),退化方式差異大的視頻分成不同類(lèi)做不同處理,這個(gè)分類(lèi)問(wèn)題目前還在不斷地探索和發(fā)展。
6.4 SDR與HDR對比效果


SDR與HDR對比之下可以看到SDR畫(huà)面發(fā)灰且對比度不夠,而HDR在顏色豐富度和亮度、對比度都要優(yōu)于SDR。
6.5 超高清終端渲染

優(yōu)酷在超高清終端渲染上做了一些超高清的工作,由于不同終端存在差異性,需要正確認識每個(gè)終端的能力去做適配。另外,不同的終端設備存在一定的顯示誤差,也需要去做矯正以求在不同終端設備上顯示效果一致。后處理分為設備本身的后處理和自身視頻的后處理,前者包括硬件芯片和系統層的后處理,優(yōu)酷將其納入整個(gè)超高清的處理鏈條中,以達到最終的渲染效果。優(yōu)酷自身的后處理包括畫(huà)質(zhì)增強和渲染工作等。
7. 關(guān)于超高清技術(shù)的未來(lái)

關(guān)于超高清的未來(lái),優(yōu)酷有清晰的戰略規劃。首先是真4K的拍攝&制作,這是從介質(zhì)制作方面提高視頻的質(zhì)量,而且拍攝過(guò)程要做到高效和低成本才能夠普及,目前已和合作伙伴有了些階段性的進(jìn)展,在未來(lái)應該會(huì )達到更好的制作水平。在真4K介質(zhì)制作能力發(fā)展和普及的過(guò)程中,云端超高清重置也會(huì )起到補充作用,由于單純的靠采集端來(lái)制作超高清介質(zhì)肯定是不現實(shí)的,有關(guān)VR的技術(shù)一定需要視角重建的工作,這部分在超分辨率技術(shù)中也是需要不斷深入。在信息壓縮方面,優(yōu)酷更多將展望下一代的編碼標準和更好的通信技術(shù),包括已定稿的H.266和目前比較火熱的5G通信技術(shù),未來(lái)關(guān)于超高清技術(shù)的發(fā)展一定會(huì )更加精彩。
來(lái)源:LiveVideoStack