1關(guān)于語(yǔ)音編碼以及相關(guān)十大要素的討論
如果讀者想了解QoS保障的整體知識架構,筆者認為讀者應該首先對整體網(wǎng)絡(luò )環(huán)境的技術(shù)框架,和基本相關(guān)的細節有比較深入的了解。這些涵蓋的知識點(diǎn)包括,基本的VoIP基礎常識,RTP傳輸路徑,各種編碼和采樣率特性(包括比較早的帶編碼和最近的寬帶編碼),SIP/SDP基礎,關(guān)于RTP封裝和RTCP的基礎,語(yǔ)音質(zhì)量的評價(jià)標準的量化技術(shù)手段-MOS/R-Factor,影響QOS的十大相關(guān)因素。除了以上知識點(diǎn),另外,讀者也需要了解針對某些特殊行業(yè)或者敏感行業(yè)對語(yǔ)音安全的加密要求。美國安全部門(mén)發(fā)布了assured SIP services(As-SIP)非規范的草案,針對語(yǔ)音加密提出來(lái)專(zhuān)門(mén)的架構要求。在筆者的歷史文章中,筆者針對以上專(zhuān)題都做了非常深入和全面的討論,筆者認為沒(méi)必要再重新發(fā)明輪子,重復介紹同樣的內容,讀者可以參考一下鏈接學(xué)習:
2vqmon 工具和RTCP XR支持
雖然前面筆者花費了大量的章節討論了關(guān)于QoS和MoS/R-Factor等語(yǔ)音質(zhì)量評價(jià)標準。但是,在實(shí)際IP語(yǔ)音方案的部署中,絕大部分的用戶(hù)仍然缺乏統一的規范的語(yǔ)音質(zhì)量評價(jià)標準來(lái)評價(jià)其語(yǔ)音質(zhì)量。大部分的用戶(hù)仍然靠耳朵聽(tīng)來(lái)體驗其語(yǔ)音質(zhì)量,無(wú)標準的量化輸出結果和工具。雖然一些終端為了實(shí)現維護的便捷性也支持了MOS和R-Factor包括RCTP-XR,但是,服務(wù)器端或者其他的IPPBX不能支持,因此實(shí)現全流程的語(yǔ)音質(zhì)量標準檢測仍然是一個(gè)問(wèn)題。這里,筆者認為無(wú)論是用戶(hù)還是服務(wù)提供商可能缺乏對語(yǔ)音量化指標使用認識。他們可能認為語(yǔ)音質(zhì)量評價(jià)或者M(jìn)OS/RCTP-XR基本上都屬于維護性工具,對用戶(hù)來(lái)說(shuō)可能不是一個(gè)剛性需求。對用戶(hù)端來(lái)說(shuō),如果個(gè)體終端出現語(yǔ)音質(zhì)量問(wèn)題的話(huà),一般排查手段是通過(guò)抓包方式對每個(gè)特定終端檢查數據是否正常。對集成商來(lái)說(shuō),管理界面可能就配置了幾個(gè)常用的debug排查工具來(lái)排查問(wèn)題,缺乏自動(dòng)化的智能上報工具。但是,這些用戶(hù)基本上都忽略了基本事實(shí),目前很多部署場(chǎng)景都是基于互聯(lián)網(wǎng)環(huán)境異地部署,大批量終端部署在不同的網(wǎng)絡(luò )環(huán)境中的特點(diǎn)。在這樣的復雜網(wǎng)絡(luò )環(huán)境中,終端如果對服務(wù)器端不能定期上報語(yǔ)音質(zhì)量統計數據,而且服務(wù)器端也沒(méi)有支持對終端數據的實(shí)時(shí)采集,那么對系統的運營(yíng)管理將是一個(gè)極大的挑戰。
在一個(gè)通話(huà)過(guò)程中,可能有多種原因會(huì )引起語(yǔ)音通話(huà)的質(zhì)量的變化,包括噪音,語(yǔ)音失真,音量或者增益過(guò)高或者過(guò)低,回音,語(yǔ)音間斷,軟硬件故障等各種問(wèn)題。如果進(jìn)一步細化語(yǔ)音質(zhì)量的話(huà),可能又分解為接聽(tīng)語(yǔ)音質(zhì)量,通話(huà)中的語(yǔ)音質(zhì)量和傳輸質(zhì)量等。國際電信聯(lián)盟又進(jìn)一步將這些語(yǔ)音質(zhì)量分類(lèi)細化為:
- MOS-AVQE :語(yǔ)音圖形化質(zhì)量;
- MOS-CQE :預估通話(huà)語(yǔ)音質(zhì)量;
- MOS-LQE :聽(tīng)到的語(yǔ)音質(zhì)量;
- MOS-TQE:談話(huà)語(yǔ)音質(zhì)量;
- MOS-VQE :可描繪視頻質(zhì)量;
以下評價(jià)表是來(lái)自于RFC3611的關(guān)于RTCP XR評價(jià)的具體參數,用戶(hù)可以閱讀RFC3611-4.7 章節關(guān)于 VoIP Metrics Report Block說(shuō)明。

資料來(lái)源:RFC3611
目前,VQmon(Voice Quality Monitoring (VQMon)是一個(gè)非常專(zhuān)業(yè)的解決方案,它提供了針對MOS的完整支持,通過(guò)可感知的算法,支持了多種國際規范,包括ITU-T P.564, ITU-T G.107, ITU-T G.1020, ETSI TS 101 329-5 Annex E 和IETF RFC 3611等。它通過(guò)軟件API方式可以支持各種終端實(shí)現專(zhuān)業(yè)的MoS統計。著(zhù)名的CounterPath 軟電話(huà)eyeBeam 就實(shí)現了VQmon的支持,Polycom的終端也支持了VQmon功能支持RTCP XR數據包的發(fā)送。VQmon可以軟件或者芯片方式支持SIP終端,網(wǎng)關(guān),SIP服務(wù)器/IPPBX和網(wǎng)關(guān)SBC設備。通過(guò)VQmon支持,用戶(hù)管理平臺可以非常輕松獲得全部設備終端的RTCP XR專(zhuān)業(yè)報告。

此圖例以及以下部分圖例均來(lái)自于互聯(lián)網(wǎng)資源
除了以上商業(yè)解決方案以外,目前很多的終端支持了RTCP-XR,例如polycom,Snom,yealink和Cisco等廠(chǎng)家的產(chǎn)品。針對服務(wù)器端管理平臺,HOMER(HEP)是比較完整的開(kāi)源平臺,它可以支持其他的開(kāi)源媒體服務(wù)器和SIP軟交換,實(shí)現比較完整的語(yǔ)音質(zhì)量管理。
3語(yǔ)音編碼研究成果分享
雖然目前市場(chǎng)上針對語(yǔ)音質(zhì)量評價(jià)和MOS已經(jīng)國際電信聯(lián)盟的標準和相關(guān)的官方,但是關(guān)于MOS的評價(jià),以及各種窄帶和寬帶語(yǔ)音編碼的研究一直沒(méi)有停止。筆者在此章節和大家分享一些關(guān)于語(yǔ)音編碼研究的成果,希望通過(guò)市場(chǎng)產(chǎn)品結合學(xué)術(shù)領(lǐng)域的研究為讀者創(chuàng )建一個(gè)比較完整的關(guān)于語(yǔ)音編碼質(zhì)量以及MOS的知識架構。
在過(guò)去的一個(gè)世紀,人類(lèi)的通信基本上依賴(lài)窄帶的語(yǔ)音進(jìn)行通信。其窄帶語(yǔ)音質(zhì)量基本上滿(mǎn)足了人類(lèi)進(jìn)行正常語(yǔ)音溝通的要求。隨著(zhù)科技的不斷發(fā)展,例如人工智能,語(yǔ)音識別和物聯(lián)網(wǎng)的興起,窄帶語(yǔ)音已經(jīng)不能完全滿(mǎn)足其應用需求。目前市場(chǎng)上已經(jīng)出現了窄帶語(yǔ)音,寬帶語(yǔ)音, 超寬帶語(yǔ)音和全寬帶語(yǔ)音的應用要求。在傳統的語(yǔ)音通信中,我們使用G.711已經(jīng)可以滿(mǎn)足語(yǔ)音通信的要求,而且MOS值最高到4.3。但是,隨著(zhù)各種語(yǔ)音服務(wù)的不斷增加,運營(yíng)商使用寬帶語(yǔ)音來(lái)進(jìn)行語(yǔ)音傳輸,例如G.722 等。寬帶,甚至于超寬帶語(yǔ)音可以支持更自然的語(yǔ)音,同時(shí)提供了語(yǔ)音的清晰度,和語(yǔ)音質(zhì)量。特別是針對語(yǔ)音發(fā)音中的一些輔音字母,例如S,或者F,我們使用G.711編碼是很難聽(tīng)到字母輔音的,但是,如果我們使用寬帶語(yǔ)音編碼,例如G.722就可以聽(tīng)到。所以,寬帶語(yǔ)音支持了更好的語(yǔ)音清晰度。

一些音樂(lè )產(chǎn)品,例如CD等,為了保證其音樂(lè )聲音更加圓潤飽滿(mǎn),也需要使用寬帶編碼來(lái)處理。如果為了能夠適應各種人類(lèi)年齡段的聽(tīng)覺(jué)的敏感度,可能需要使用全寬帶語(yǔ)音來(lái)獲得更好支持。顯然,根據以上討論,我們知道語(yǔ)音質(zhì)量MOS的評價(jià)最高設置為4.3。如果使用了更多高清語(yǔ)音編碼以后,MOS評價(jià)值設置為4.3顯然不能算是一個(gè)非常合理的評價(jià)。諾基亞研究院建議MOS評價(jià)值從4.3提高到9。諾基亞研究院使用諾基亞聽(tīng)力檢測設備對窄帶,寬帶,超寬帶的編碼,單聲道語(yǔ)音和立體聲語(yǔ)音進(jìn)行了不同的對比試驗,通過(guò)調整其MOS和速率來(lái)檢測其最終測試結果,具體的試驗檢測場(chǎng)景如下:




通過(guò)研究人員發(fā)布的論文結果可以看出,使用超級寬帶編碼可以取得比較大的語(yǔ)音質(zhì)量提升。
我們都知道,IP語(yǔ)音通信系統是處于動(dòng)態(tài)網(wǎng)絡(luò )環(huán)境中。呼叫路徑上的任何一個(gè)節點(diǎn)或者網(wǎng)元發(fā)生故障或者其他不穩定問(wèn)題都會(huì )影響語(yǔ)音質(zhì)量和MOS值。一些任意的和突發(fā)的網(wǎng)絡(luò )丟包會(huì )嚴重影響語(yǔ)音質(zhì)量。在不同環(huán)境不同終端使用了不同編碼情況下,或者在遇到網(wǎng)絡(luò )突發(fā)的丟包時(shí),不同編碼會(huì )產(chǎn)生不同的語(yǔ)音質(zhì)量評價(jià)值(MOS)。研究人員Gaous Afrizal針對不同突發(fā)網(wǎng)絡(luò )問(wèn)題帶來(lái)的網(wǎng)絡(luò )丟包,針對G.711,G.722, G.729, AMR-NB和AMR-WB做了對比分析。以下測試結果(RFC3551)包括任意網(wǎng)絡(luò )丟包環(huán)境中的AMR編碼和G729等編碼的MOS統計結果:

在突發(fā)丟包測試中,初期N=2時(shí),G.711的MOS值必須仍然很好。

但是,隨著(zhù)N的變化,其他編碼的表現開(kāi)始逐漸優(yōu)于G.711 編碼。當N=4或者N=5時(shí),G.722-64 編碼的MOS值表現最好。


通過(guò)以上論文結果,我們可以看出寬帶編碼在當前的網(wǎng)絡(luò )環(huán)境中,和其他窄帶編碼相比具有非常好的網(wǎng)絡(luò )適應能力,可以保證更優(yōu)質(zhì)的語(yǔ)音質(zhì)量和相對比較高的MOS值。隨著(zhù)寬帶語(yǔ)音編碼(HD voice)的不斷普及,越來(lái)越多的應用場(chǎng)景開(kāi)始使用寬帶編碼支持的語(yǔ)音實(shí)現會(huì )議功能,云融合通信等應用。

4總結
語(yǔ)音質(zhì)量一直是SIP網(wǎng)絡(luò )推廣過(guò)程中用戶(hù)比較關(guān)心的問(wèn)題。筆者通過(guò)針對語(yǔ)音質(zhì)量評價(jià)MOS的討論,為讀者提供了可量化的評價(jià)指標詳細說(shuō)明。一些QoS語(yǔ)音質(zhì)量保證需要依賴(lài)于各種節點(diǎn)的控制和管理,讀者通過(guò)歷史章節中關(guān)于QoS三個(gè)章節詳細說(shuō)明了其具體的細節。雖然QoS保證可以通過(guò)多種方式來(lái)實(shí)現,但是最終評價(jià)語(yǔ)音質(zhì)量還是需要依賴(lài)MOS評價(jià)指標來(lái)檢測。在當前的網(wǎng)絡(luò )環(huán)境中,窄帶編碼,寬帶編碼,超寬帶編碼以及全寬帶編碼已經(jīng)出現在了具體的應用場(chǎng)景中。網(wǎng)絡(luò )管理平臺需要采集各種節點(diǎn),終端和網(wǎng)關(guān)的RTCP-XR,VQmon是一個(gè)非常好的工具,它可以靈活支持各種SIP終端,網(wǎng)關(guān)等設備。諾基亞研究院通過(guò)MOS值調整,對各種語(yǔ)音做了充分的對比分析,值得讀者參考此結果做更深入分析。另外,針對網(wǎng)絡(luò )不穩定環(huán)境中,語(yǔ)音編碼和MOS的相關(guān)性也是非常重要的。通過(guò)Gaous Afrizal研究論文,我們了解了在不同突發(fā)丟包環(huán)境中,G.722的MOS表現非常穩定,優(yōu)于其他的語(yǔ)音編碼。因此,未來(lái)語(yǔ)音通信中,寬帶編碼將占據主流的位置,更多終端,服務(wù)器端將支持寬帶編碼。
參考資料:
- https://tools.ietf.org/id/draft-ietf-sipping-rtcp-summary-07.html
- https://datatracker.ietf.org/doc/html/rfc3611#section-4.7
- www.asterisk.org.cn
- www.dinstar.cn
- https://opensips.org/pub/events/2016-05-10_OpenSIPS-Summit_Amsterdam/Alexandr_Dubovikov-OpenSIPS_Summit2016-SIPCAPTURE_Troubleshooting.pdf
- https://www.voicehost.co.uk/help/call-quality-r-factor-and-mos
- Anssi R?m?,Nokia Research Center,VOICE QUALITY EVALUATION OF VARIOUS CODECS
- Gaous Afrizal, Impact of Random and Burst Packet Loss on Voice
- Codec G.711, G.722, G.729, AMR-NB, AMR-WB
- https://datatracker.ietf.org/doc/html/rfc3551