QCon北京2017，我司陳若非博士講解了《實時音視頻質量評估與監(jiān)控》，以下是演講精要。

　　陳若非，畢業(yè)于香港城市大學，Ph.D。在聲網Agora.io負責基礎音頻技術。曾任職于YY基礎技術研發(fā)部。IEEE期刊與會議評審。

　　目前，在實時音視頻領域普遍存在幾個問題：

對實時音視頻的難度估計不足
對實時音視頻的測試方法了解不多
對上線后可能遇到的困難準備不足

　　這三個問題，就導致了一些實時音視頻產品在上線后，質量差、用戶體驗差，甚至不能達到商用的標準。

　　本文將會解答以下3個問題：

音視頻的現(xiàn)狀與趨勢
音視頻的質量問題及其來源
如何快速建立一個公平有效的評估體系

　　實時音視頻的現(xiàn)狀

　　實時音視頻，最主要的特點是，低延時。根據ITU-TG.114標準，單向通話延時大于150ms就可受到通話連續(xù)性受到影響，最大可容忍時延為400ms。

　　實時音視頻，主要會應用于實時的音視頻通信，比如網絡電話、視頻通話；也會應用于直播，尤其是直播中的多主播連麥；同時，還會應用于一些垂直場景，比如手游中的玩家實時對講，在線教育課程等。

　　目前，實時音視頻這個領域，涉及到三個層次。最底層的硬件基礎設施升級，wifi的普及，3G向4G、甚至5G的升級，手機等終端設備計算能力的提升，都會加速實時音視頻的發(fā)展。中間層是實時云CaaS（Communications-as-a-Service，通訊即服務）。CaaS是將傳統(tǒng)電信的能力如消息、語音、視頻、會議、通信協(xié)同等封裝成API或者SDK通過互聯(lián)網對外開放，將電信能力真正作為服務對外提供。聲網Agora.io就處于這一層。最頂層應用層，直接面向終端用戶，涉及到諸多垂直行業(yè)。

　　實時音視頻的發(fā)展趨勢

　　實時音視頻，朝著3個方向發(fā)展：

　　越來越真實

視頻清晰度和音頻音質，隨著技術和硬件的發(fā)展，在不斷提高。VR視頻，極大的增強了用戶的沉浸感。聲網的音頻已經可以做到180°的立體聲，聲音自帶方位感。
實時音視頻也在朝著越來越多互動發(fā)展，直播連麥、手游音視頻社交、以Houseparty為代表的創(chuàng)新社交模式，這些創(chuàng)新應用，在實時音視頻出現(xiàn)之前是很難普及的。

實時音視頻，有了越來越多的玩法，人臉識別技術的具體應用：美顏和換臉。音頻方面也可以有變聲這樣好玩的功能。

　　實時音視頻質量的挑戰(zhàn)

　　以上趨勢，對實時音視頻有了更大的挑戰(zhàn)和更高的要求：

更大的數據量
更低的延時
更多的算法

　　這是一個視頻質量對比的案例，右側視頻出現(xiàn)的問題分別有：

出圖慢，視頻首幀時間明顯慢于左邊的視頻
畫面模糊
延時
卡頓，甚至卡住
綠屏，花屏

　　那么問題來了：

什么情況下會出現(xiàn)這些問題？
是網絡問題還是設備問題？
影響了多少用戶？是個例問題還是全局問題？
如何在測試中盡可能的覆蓋這些問題？

　　實時音視頻質量問題的來源

　　實時音視頻，總共分幾個環(huán)節(jié)：采集、前處理和編碼、傳輸、解碼和后處理、渲染。

　　采集：iOS是比較簡單的，Android則要做些機型適配工作（聲網Agora.io目前適配了5000+Android機型）。PC最麻煩各種奇葩攝像頭驅動，出了問題特別不好處理。

　　前處理：美顏、換臉就是在這個環(huán)節(jié)處理。美顏算法需要懂圖像處理算法的人，沒有好的開源實現(xiàn)。算法設計好后還需要優(yōu)化。容易出現(xiàn)的問題有：GPU占用太高導致手機發(fā)燙，手機發(fā)燙會導致攝像頭采集掉幀。這需要豐富的經驗來支撐。

　　編碼：分為硬編碼和軟編碼，720P需要硬編碼。但是硬件編碼不靈活，兼容性有問題。編碼還需要考慮網絡和設備兼容，尤其是數千種安卓設備。在這個環(huán)節(jié)，軟編碼可能會導致CPU發(fā)燙，進一步導致攝像頭采集掉幀，長期發(fā)燙的直接反應是費電。這些是性能方面的問題。音視頻編解碼技術還涉及到網絡傳輸，編碼的碼率、幀率、分辨率直接影響網絡傳輸效率。

　　傳輸：聲網的音視頻傳輸是通過自建的SD-RTN? （ Software Defined Real-time Network），專為實時傳輸設計的虛擬通信網絡來進行。這是一種新型的專為實時傳輸而設計的網絡架構，基于UDP協(xié)議。通過在互聯(lián)網上不同地區(qū)的數據中心放置軟件組網單元，相互連接互相調度，在現(xiàn)有的公共互聯(lián)網基礎上構建一層新的虛擬網絡。SD-RTN?系統(tǒng)能夠實時根據各節(jié)點的連接和傳輸狀況、負載狀況以及到用戶的距離和響應時間，自動分配最優(yōu)、最通暢的傳輸路徑，達到實時傳輸需要的質量保障級別。

　　解碼：這一環(huán)節(jié)需要做容錯處理和適配。解碼和編碼一樣，都存在發(fā)燙，導致手機卡，耗電量高的問題。

　　渲染：可能存在的問題是，手機明明解碼出好多幀數據，就是渲染不出來。為什么聲畫就是不同步？

　　這幾個環(huán)節(jié)，歸納起來可分為：物理環(huán)境、設備環(huán)境、網絡環(huán)境，三個不同環(huán)境，導致能導致實時音視頻最后出現(xiàn)質量問題。

　　如何設計一個質量評估體系

　　那么，如何設計一個質量評估體系來監(jiān)控上述三個環(huán)境？

　　這三個環(huán)境的特點是，隨機性、多元性和主觀性。我們的質量評估體系，需要能夠重現(xiàn)問題、發(fā)現(xiàn)問題的關聯(lián)性，并且統(tǒng)一評價標尺。與此同時，還要考慮到成本、覆蓋性等問題。

　　實時音視頻質量評估中，我們是選擇主觀測試還是客觀測試呢？是選擇標準化測試還是自建呢？

　　客觀測試（標準化）

　　我們想要定量的分析一個音頻引擎的優(yōu)劣點，就必須在測試中盡可能的排除網絡、設備和物理環(huán)境等因素帶來的隨機性影響。3GPP、ESTI等通信業(yè)國際標準，對手機通信的測試環(huán)境方法有很多要求和指引。簡單的說，我們需要足夠安靜且反射路徑最小化的聲學環(huán)境來避免周圍的環(huán)境音來影響測試，所以需要有專業(yè)設計的消聲室。我們需要可重復又高保真的發(fā)聲和收音裝置來覆蓋人的正常說話和聽力動態(tài)范圍，所以需要人工耳和人工嘴。另外，為了覆蓋更多的真實場景，我們還需要網損設備來模擬和控制丟包。需要近似真實環(huán)境的沉浸式噪音場景，我們需要在人工頭的四周布置高保真的音箱來制造噪聲聲場。

　　客觀測試的一個重要優(yōu)點是，網絡設備物理環(huán)境條件相對可控，可重復性較強。這些通信標準定義的客觀指標也很大程度上可以幫助快速定位音視頻問題。但是客觀測試本身也它自己的局限性。首先，要搭建上述的一套科學的客觀測試環(huán)境，一般需要七位數字人民幣的預算，這對很多公司來說已經是個很大的制約了。更重要的是，客觀測試雖然可以暴露一些明顯的問題，但是很難覆蓋到一些細節(jié)和定位到問題的根源。所以無論是出于成本的考慮還是更細節(jié)的分析，我們都需要有合理的主觀測試來彌補客觀測試的一些問題。

　　主觀測試

　　一般比較常用的做法是請足夠多的人來采集有統(tǒng)計意義的樣本，然后對測試人員做一定的培訓。最后根據信號失真度，背景侵入度，和總體質量等方面來對音視頻通話打分。

　　這種方法主要用來比較不同引擎之間的總體主觀感受，如果需要更細節(jié)的發(fā)現(xiàn)和比較問題，還是需要跟針對性的測試。

　　主觀測試相對來比較靈活，可以不必限定在消聲室中進行。但是為了盡量避免我們之前的提到的設備網絡環(huán)境的不確定因素，測試人員和被測設備需要分別放置于兩個音源隔離的房間。雖然主觀評估的準確性較高，但是也有一些缺點。例如，人眼和人腦會疲勞，從而導致在一定時間內能進行的測試量較少；人的主觀性導致結果的可重復性會有一定的偏差。

　　評估還需要有參考對象，有比較的進行評估。

　　測試環(huán)境搭建的標準，需考慮的模塊，流程可以參考上圖。下面一個視頻，是聲網關于延時的評估案例，用到磁懸浮地球儀和一個在線秒表。第一排是本地視頻，第二排是接收端接收到的圖像。左右兩個是不同產品的對比測試。通過錄像，我們可以看到對比之下的延時和畫面質量。

　　搭建好本地環(huán)境后，就需要執(zhí)行測試。共涉及三個環(huán)節(jié)

人員
測試項
結果分析

　　實時音視頻質量的監(jiān)控

　　前面部分講的是實時音視頻質量的評估，那么產品上線后，應該如何監(jiān)控？需要覆蓋兩個方面：

全局質量監(jiān)控
個例問題調查

　　全局監(jiān)控的目的是：

準確了解全網質量，而不是僅僅局限于自己測試或者用戶反饋
通過數據驅動發(fā)現(xiàn)問題，驗證質量改進的效果
全局監(jiān)控要遵循一個規(guī)則：看分布不看均值

　　在描述服務質量時，均值是很弱的概念。舉個例子：中國家庭平均資產92萬；把收入從高到低排序，排到第95%位置的家庭，年收入是900元。第一個均值對了解人民生活水平意義不大，第二個告訴我們很多人還在艱難謀生。因此聲網在統(tǒng)計全局質量時：看分布、不看均值。上圖中是聲網做的一個統(tǒng)計，反應每天使用用戶大概比例，用什么網絡什么系統(tǒng)，音頻視頻打分如何，丟包率如何？

　　全局反饋良好，但依然有用戶報問題，我的聲音聽不到怎么辦？聲網在實踐當中做了這樣一套系統(tǒng)，可以根據用戶ID去查詳細的通話信息：包括一些碼率、CPU的情況、音頻錄音大小可以自己看得到，這樣子就能定位問題。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

QCon演講：實時音視頻質量評估與監(jiān)控

評論排行

推薦閱讀

專題

大家都在看