GPU轉碼性能、成本和質(zhì)量
音頻轉碼的GPU性能和成本
為了更好地確定使用GPU與CPU的固有價(jià)值,我們分析了三個(gè)變量: 性能 (支持的會(huì )話(huà)數),功耗 (# 會(huì )話(huà)/瓦特) 和成本 ($/會(huì )話(huà))。 對于CPU,我們使用了英特爾至強E5-2698 v3 @ 2.10GHz,16-core dual socket card。 對于GPU ,我們使用了Nvidia P100。圖3描述了我們分析的配置。 注意: 對于下面討論的所有分析,我們認識到這是一個(gè)時(shí)間點(diǎn)評估。 最肯定的是,CPU和GPU的處理能力將繼續提高,但我們相信GPU的增量將繼續超過(guò)CPU可實(shí)現的增量。
對于規模、功率和成本的計算,CPU是完全配置和完全加載的。GPU完全符合成本,但對于規模和功耗的分析,僅加載到可以在CPU處理中使用瓶頸的程度。這在使用少于4個(gè)GPU的低復雜度編解碼器類(lèi)型中最為明顯。此外,CPU處理被設置為不超過(guò)85% 利用率。

GPU與CPU性能對比:會(huì )話(huà)數
圖3.1顯示了使用CPU+GPU進(jìn)行轉碼而不是僅使用CPU時(shí)可能支持的會(huì )話(huà)數的增量或增加。 假定100% 會(huì )話(huà)被轉碼, 可以看出,根據編解碼器類(lèi)型,GPU將會(huì )話(huà)數增加到1366%。

GPU與CPU功耗對比,會(huì )話(huà)數/瓦
圖3.2顯示了每瓦特使用的會(huì )話(huà)數。在此分析中,服務(wù)器和CPU的功耗是常見(jiàn)的,因此功耗差異基于所使用的GPU數量。與總體會(huì )話(huà)計數所見(jiàn)的結果一樣,每瓦會(huì )話(huà)數在會(huì )話(huà)數量上顯示出非常強勁的增長(cháng),根據編解碼的類(lèi)型,范圍從54% 到456% 增加

GPU與CPU成本消耗對比:美元/每會(huì )話(huà)
圖3.3顯示了每個(gè)會(huì )話(huà)的美元成本以及使用GPU潛在的成本節省。 在這里,通過(guò)轉移到GPU解決方案可以實(shí)現的節省范圍從使用AMR-NB的65% 到使用EVRC B0的492% (9.3 kbps)。

使用浮點(diǎn)處理的GPU音頻質(zhì)量
曾經(jīng)一個(gè)反對使用GPU進(jìn)行轉碼的論點(diǎn)是:使用CPU進(jìn)行定點(diǎn)處理轉碼更有效,可以產(chǎn)生更好的語(yǔ)音質(zhì)量。這與專(zhuān)為浮點(diǎn)計算而設計的GPU形成對比。如果此論點(diǎn)成立,則直接意味著(zhù)使用GPU會(huì )導致語(yǔ)音質(zhì)量下降。實(shí)際上,通過(guò)查看實(shí)際測試結果可以證明該論點(diǎn)是錯誤的。
我們分析了CPU (固定點(diǎn)) 與GPU (浮點(diǎn)) 的語(yǔ)音質(zhì)量結果,用于轉碼三種編解碼類(lèi)型: G729AB; AMR-WB; 和EVRC-WB,使用G.729標準規范中的語(yǔ)音測試向量。語(yǔ)音質(zhì)量測量是使用PESQ標準進(jìn)行的。表1顯示了完整的PESQ測量結果。亮點(diǎn)是:
G729AB: GPU在CPU語(yǔ)音質(zhì)量測量的0.4% 之內。請注意,測試是在沒(méi)有不連續傳輸 (DTX) 的情況下運行的,也就是“沉默抑制”,因此在沉默期間發(fā)送了數據包。
EVRC-B: GPU的語(yǔ)音質(zhì)量測量與CPU的語(yǔ)音質(zhì)量測量相差0.9% 或更小。在兩個(gè)比特率上進(jìn)行了測試: 9.3kbps 和8.5 kbps,結果相似。
AMR-WB: GPU測量對比CPU測量,范圍從0.7% 好~0.55% 差。這個(gè)測試是在從6.6 kbps到23.85 kbps的比特率的整個(gè)頻譜上進(jìn)行的

總之,我們的測試表明,使用帶浮點(diǎn)處理的GPU的語(yǔ)音質(zhì)量測量比使用固定點(diǎn)處理的CPU更好,或在1% 內。 根據我們的經(jīng)驗,<1% 差異將不會(huì )導致語(yǔ)音質(zhì)量的感知下降。有關(guān)固定點(diǎn)與浮點(diǎn)語(yǔ)音質(zhì)量的其他研究,請閱讀3GPP TR 26.976版本10.0.0版本10, AMR-WB語(yǔ)音編解碼器文檔的性能表征。具體地說(shuō),附件B和B.7章節確認了我們發(fā)現的使用浮點(diǎn)與固定點(diǎn)編碼的AMR-WB PESQ分數的比較。

從表2可以看出,根據轉碼類(lèi)型,GPU的使用可以將性能提高到480%。這種增量性能帶來(lái)了137% 的增量成本。因此,基于轉碼類(lèi)型或規模要求,GPU的使用比僅使用CPU更具吸引力

音頻和視頻混合轉碼
正如我們從音頻和視頻的性能評估中看到的那樣,GPU為規模和性能提供了非凡的價(jià)值。那么,當音頻和視頻轉碼都在同一臺服務(wù)器上執行時(shí),性能會(huì )如何呢?為了分析這一點(diǎn),我們重新使用了圖4中的配置,并對音頻進(jìn)行了基準測試。表3僅顯示了AMR-WB<-> G.711音頻轉碼的比較

接下來(lái),我們添加了視頻。對于GPU,為了適應兩種類(lèi)型,我們分配了40個(gè)內核中的12個(gè)用于視頻轉碼,并將其余28個(gè)內核分配給音頻轉碼。表4顯示了將視頻和音頻轉碼放在一起的匯總結果。對于組合轉碼,僅使用CPU,視頻轉碼會(huì )話(huà)平均下降67%,音頻轉碼會(huì )話(huà)下降25%。相反,當使用CPU和GPU時(shí),視頻轉碼會(huì )話(huà)的數量保持恒定,并且音頻轉碼會(huì )話(huà)僅減少6.25%。

總結
媒體轉碼現在可以在云中交付,等于或比使用傳統DSP可以實(shí)現的性能更好。盡管最初在虛擬環(huán)境中進(jìn)行了媒體轉碼,使用CPU,該解決方案不足以實(shí)現規模,并且始終將只是未來(lái)的墊腳石。 現在很明顯,未來(lái)就在這里,它是使用GPU進(jìn)行實(shí)時(shí)通信的轉碼-云中的通信服務(wù)。
這份白皮書(shū)表明,進(jìn)行音頻轉碼在性能方面GPU遠遠優(yōu)于CPU,成本、功率和在語(yǔ)音質(zhì)量方面都等于CPU。當將視頻轉碼添加到混音中,GPU再次成為超級解決方案,使基于GPU的媒體互通成為基于虛擬云部署的最佳解決方案
