本文來(lái)自英特爾資深軟件工程師張華在LiveVideoStackCon 2018講師熱身分享，并由LiveVideoStack整理而成。在分享中張華介紹了英特爾GPU硬件架構(gòu)，并詳細(xì)解析了英特爾QSV技術(shù)在FFmpeg中的具體實(shí)現(xiàn)與使用。

　　大家好，今天我與大家分享的是英特爾GPU架構(gòu)以及Quick Sync Video技術(shù)在FFmepge中的實(shí)現(xiàn)與使用。

　　1、處理器整體架構(gòu)

　　大家知道，英特爾的圖形處理GPU被稱為“核芯顯卡”，與CPU集成封裝在同一個(gè)芯片上，上圖展示的是芯片的內(nèi)部結(jié)構(gòu)。

　　1.1 發(fā)展

　　英特爾從lvy Bridge架構(gòu)開(kāi)始就嘗試將GPU與CPU集成在中央處理芯片中并逐代發(fā)展到Skylake架構(gòu)。初期的Ivy Bridge架構(gòu)中GPU所占的面積非常小，而到現(xiàn)在的第五代處理器架構(gòu)Skylake已經(jīng)實(shí)現(xiàn)十分成熟的GPU集成技術(shù)，GPU在芯片中所占的面積已經(jīng)超過(guò)了一半。在未來(lái)我們將推出基于PCI-E的獨(dú)立顯卡，為PC帶來(lái)更大的圖像性能提升。

　　1.2 基礎(chǔ)功能模塊

　　上圖展示的是一款GPU所具備的一些基礎(chǔ)功能模塊。英特爾的核芯顯卡分為普通的Intel HD Graphics與性能強(qiáng)大的Intel Iris （Pro）Graphics，其中硬件結(jié)構(gòu)的變化決定性能的高低。我們知道，GPU中的Slice個(gè)數(shù)越多，處理單元的組織方式越多，性能便越強(qiáng)大。Intel HD Graphics也就是GT2中只有一個(gè)Slice，而對(duì)于Iris系列中的GT3則有兩個(gè)Slice；GT3e相對(duì)于GT3增加了eDRAM使其具有更快的內(nèi)存訪問(wèn)速度，而GT4e則增加到三個(gè)Slice。GPU的基礎(chǔ)功能模塊主要由EU以及相關(guān)的Media Processing（MFX）等組成。一個(gè)Slice中有三個(gè)Sub-Slice，Sub-Slice中包含具體的EU和Media Sampler模塊作為最基本的可編程處理單元，GPU相關(guān)的任務(wù)都是在EU上進(jìn)行。而Media Processing中還集成了一個(gè)被稱為MFX的獨(dú)立模塊，主要由Media Format Codec（MFX）與VQE組成。MFX可將一些處理任務(wù)通過(guò)Fix Function打包，固定于一個(gè)執(zhí)行單元中進(jìn)行統(tǒng)一的編解碼處理，不調(diào)用EU從而實(shí)現(xiàn)提高EU處理3D圖形等任務(wù)的速度。Video Quality Engine（VQE）提供De-interlace與De-Noise等視頻處理任務(wù)，在編解碼中使用EU是為了得到更高的視頻編碼質(zhì)量。

　　1.3 結(jié)構(gòu)演進(jìn)

　　上圖展示的是英特爾幾代核芯顯卡產(chǎn)品在結(jié)構(gòu)上的變化。最早的Haswell架構(gòu)也就是v3系列中的EU個(gè)數(shù)相對(duì)較少，最多為40個(gè)；而到Broadwell架構(gòu)的GT3中集成了2個(gè)Slice，EU個(gè)數(shù)隨之增加到48個(gè)，圖像處理性能也隨之增強(qiáng)。從Broadwell架構(gòu)發(fā)展到Skylake架構(gòu)，除了EU與Slice格式增加的變化，MFX的組織也有相應(yīng)改進(jìn)。Broadwell架構(gòu)是將MFX集成于一個(gè)Slice中，一個(gè)Slice集成一個(gè)MFX；而到Skylake架構(gòu)之后Slice的個(gè)數(shù)增加了但MFX的個(gè)數(shù)并沒(méi)有，此時(shí)的MFC便集成在Slice之外。隨著組織方式的改變，核芯顯卡的功能也隨之改變：Skylake增加了HEVC的Decoder、PAK增加了基于HEVC的處理功能等改進(jìn)為核芯顯卡整體處理性能帶來(lái)了顯著提升，第六代以后的核芯顯卡也都主要沿用GT3的架構(gòu)組織。

　　上文介紹了核芯顯卡硬件上的模塊結(jié)構(gòu)，接下來(lái)我將具體介紹Quick Sync Video Acceleration。從Driver分發(fā)下來(lái)的Command Stream回通過(guò)多條路徑在GPU上得到執(zhí)行：如果命令屬于編解碼的Fix Function則會(huì)由MFX執(zhí)行，部分與視頻處理相關(guān)的命令會(huì)由VQE執(zhí)行，其他的命令則會(huì)由EU執(zhí)行。而編碼過(guò)程主要分為兩部分：ENC與PAK。ENC主要通過(guò)硬件實(shí)現(xiàn)Rate Control、Motion Estimation、Intra Prediction、Mode Decision等功能；PAK進(jìn)行Motion Comp、Intra Prediction、Forward Quant、Pixel Reconstruction、Entropy Coding等功能。在目前的英特爾架構(gòu)中，Media SDK通過(guò)API對(duì)硬件進(jìn)行統(tǒng)一的調(diào)度與使用，同時(shí)我們提供更底層的接口Flexible Encoder Interface（FEI）以實(shí)現(xiàn)更優(yōu)秀的底層調(diào)度與更好的處理效果。

　　2、軟件策略

　　接下來(lái)我將介紹英特爾的軟件策略。最底層的FFmpeg可允許開(kāi)發(fā)者將QSV集成進(jìn)FFmpeg中以便于開(kāi)發(fā)，而Media SDK則主要被用于編解碼處理，F(xiàn)Fmpeg可把整個(gè)多媒體處理有效結(jié)合。如果開(kāi)發(fā)者認(rèn)為傳統(tǒng)的Media SDK的處理質(zhì)量無(wú)法達(dá)到要求或碼率控制不符合某些特定場(chǎng)景，那么可以通過(guò)調(diào)用FEI等更底層的接口對(duì)控制算法進(jìn)行優(yōu)化；最頂層的OpenCL接口則利用GPU功能實(shí)現(xiàn)邊緣計(jì)算等處理任務(wù)，常見(jiàn)的Hybrid編碼方式便使用了OpenCL。除此之外OpenCL也可實(shí)現(xiàn)一些其他的并行處理功能，例如與AI相關(guān)的一些計(jì)算。

　　2.1 Media SDK

　　Media SDK分為以下幾個(gè)版本：Community Edition是一個(gè)包含了基本功能的部分免費(fèi)版本，Essential Edition與Professional Edition則是具有更多功能的收費(fèi)版本，可實(shí)現(xiàn)例如hybrid HEVC 編碼，Audio的編解碼、Video Quality Caliper Tool等諸多高級(jí)功能和分析工具的集合。

　　1）軟件架構(gòu)

　　上圖主要介紹的是Media Server Studio Software Stack軟件架構(gòu)，我們基于此架構(gòu)實(shí)現(xiàn)FFmpeg的加速。

　　這里需要強(qiáng)調(diào)的是：

　　a）OpenGL （mesa）與linux內(nèi)核一直是開(kāi)源的項(xiàng)目，但之前版本的MSS中存在一些私有的內(nèi)核補(bǔ)丁，并對(duì)操作系統(tǒng)的或?qū)inux的內(nèi)核版本有特殊要求。

　　b）HD Graphics Driver for Linux之前是一個(gè)閉源的方案，而現(xiàn)在的MSDK 和用戶態(tài)驅(qū)動(dòng)（iHD驅(qū)動(dòng)）都已經(jīng)實(shí)現(xiàn)開(kāi)源�，F(xiàn)在我們正在制作一個(gè)基于開(kāi)源版本的Release，未來(lái)大家可以通過(guò)此開(kāi)源平臺(tái)獲得更好的技術(shù)支持。

　　2）編解碼支持

　　關(guān)于編解碼支持，其中我想強(qiáng)調(diào)的是HEVC 8 bit 與10 bit的編解碼。在Gen 9也就是Skylake上并不支持硬件級(jí)別的HEVC 10 bit解碼，面對(duì)這種情況我們可以通過(guò)混合模式實(shí)現(xiàn)對(duì)HEVC 10 bit的編解碼功能。最新E3v6（Kabylake）雖然只有較低性能的GPU配置，但可以支持HEVC 10 bit解碼，HEVC 10 bit編碼功能則會(huì)在以后發(fā)布的芯片中提供。

　　2.2 QSV到FFmpeg的集成思路

　　FFmpeg集成的思路主要如下：

FFmpeg QSV Plugins：將SDK作為FFmpeg的一部分進(jìn)行封裝，其中包括Decoder、Encoder與VPP Filter處理。
VAPPI Plugin：Media對(duì)整個(gè)英特爾GPU的軟件架構(gòu)而言，從最底層的linux內(nèi)核，中間有用戶態(tài)驅(qū)動(dòng)，對(duì)外的統(tǒng)一的接口就是VAAPI。Media SDK的硬件加速就是基于VAAPI開(kāi)發(fā)，同時(shí)增加了很多相關(guān)的功能，其代碼更為復(fù)雜；而現(xiàn)在增加的VAAPI Plugin則會(huì)直接調(diào)用LibAV使軟硬件結(jié)合更為緊密。

　　接下來(lái)我將介紹如何將SDK集成到FFmpeg中，一共分為AVDecoder、AVEncoder、AVFilter三個(gè)部分。

　　1）AVFilter

　　AVFilter主要是利用硬件的GPU實(shí)現(xiàn)Video Processor功能，其中包括vpp_qsv、overlay_qsv、hwupload_qsv，其中我們重點(diǎn)開(kāi)發(fā)了overlay_qsv，vpp_qsv與hwupload_qsv。如果在一個(gè)視頻處理的pipeline中有多個(gè)VPP的實(shí)例運(yùn)行，會(huì)對(duì)性能造成很大的影響。我們的方案是實(shí)現(xiàn)一個(gè)大的VPP Filter中集成所有功能并通過(guò)設(shè)置參數(shù)實(shí)現(xiàn)調(diào)用，避免了多個(gè)VPP的實(shí)例存在。但是為什么將vpp_qsv與overlay_qsv分開(kāi) 這是因?yàn)闊o(wú)法在一個(gè)VPP實(shí)例中同時(shí)完成compositor和一些視頻處理功能（像de-interlace等）。英特爾核芯顯卡內(nèi)顯存中的存儲(chǔ)格式為NV12，和非硬件加速的模塊聯(lián)合工作時(shí)，需要對(duì)Frame Buffer進(jìn)行從系統(tǒng)內(nèi)存到顯卡顯存的復(fù)制過(guò)程，hwupload_qsv提供了在系統(tǒng)內(nèi)存和顯卡內(nèi)存之間進(jìn)行快速幀轉(zhuǎn)換的功能。

　　2）AVEncoder

　　AVEncoder目前支持H264、HEVC、MPEG-2等解碼的硬件加速。

　　3）AVDecoder

　　AVDecoder目前支持H264、HEVC、MPEG-2等協(xié)議的硬件加速。

　　最理想的方案是在整條視頻處理的Pipeline中都使用顯卡內(nèi)存從而不存在內(nèi)存之間的幀拷貝，從而達(dá)到最快的處理速度，但在實(shí)際應(yīng)用中我們很多時(shí)候是做不到這一點(diǎn)。將MSDK集成進(jìn)FFmpeg中時(shí)需要解決內(nèi)存轉(zhuǎn)換的問(wèn)題，例如VPP Filter不支持一些功能或原始碼流并不在Decoder支持的列表中。上圖中粉色與綠色的轉(zhuǎn)換表示的就是數(shù)據(jù)從顯存到系統(tǒng)內(nèi)存再到顯存之間的轉(zhuǎn)換。我們?cè)趯?shí)踐中經(jīng)常會(huì)遇到處理性能的急劇變化，可能的原因就是一些非硬件處理的模塊和硬件加速的模塊存在與同一個(gè)pipeline中，從而對(duì)整體性能造成影響。這是因?yàn)檫M(jìn)行了額外的內(nèi)存拷貝過(guò)程，一旦優(yōu)化不足則會(huì)極大影響性能。具體進(jìn)行內(nèi)存分配時(shí)我們使用了hwcontext，這是FFmpeg在3.0之后增加的一個(gè)功能。我們基于FFmpeg中hwcontext的機(jī)制實(shí)現(xiàn)了hwcontext_qsv，從而對(duì)硬件的初始化與內(nèi)存分配進(jìn)行很好的管理。

　　3、對(duì)比MSS與FFmpeg+QSV

　　下面我將分享MSS與FFmpeg+QSV的異同。二者支持相同的編解碼器與視頻處理。

　　二者的差異有：

MSS 僅提供了一套庫(kù)和工具，用戶必須基于 MSS進(jìn)行二次開(kāi)發(fā)；而FFmpeg 是一個(gè)流行的多媒體開(kāi)放框架， QSV的GPU加速只是其中的一部分。
MSS的庫(kù)中提供了VPP 接口，用戶要實(shí)現(xiàn)某些功能必須進(jìn)行二次開(kāi)發(fā)。而目前，F(xiàn)Fmpeg+QSV已存在2個(gè)開(kāi)發(fā)好的Filter，并且在Filter中集成了MSS 支持的所有功能，并提供更加簡(jiǎn)單的選項(xiàng)進(jìn)行配置，這些功能對(duì)用戶而言都是方便使用的。
在內(nèi)存管理上，MSS的開(kāi)發(fā)人員必須管理自己的內(nèi)存；而FFmpeg 提供基本的內(nèi)存管理單元并實(shí)現(xiàn)系統(tǒng)內(nèi)存的統(tǒng)一調(diào)用，集成了硬件級(jí)別的內(nèi)存處理機(jī)制。
FFmpeg 提供了一定的容錯(cuò)機(jī)制與 a/v 同步機(jī)制；FFmpeg+QSV 模塊充分利用這些機(jī)制來(lái)提高兼容性，像使用ffmpeg的parse工具進(jìn)行視頻流預(yù)處理。
處理流程上，MSS的用戶在使用MSS模塊之前必須自己開(kāi)發(fā)Mux/Demux或其他必要的模塊；而FFmpeg+QSV 由于是基于 MSS 實(shí)現(xiàn)并添加了特殊的邏輯，每個(gè)模塊都可與 FFmpeg 的其他模塊一起工作。

　　可以說(shuō)FFmpeg有很強(qiáng)大的媒體支持，相對(duì)于傳統(tǒng)的MSS在保證性能與質(zhì)量的前提下為用戶節(jié)省很多工作量并顯著提升開(kāi)發(fā)效率。

　　4、實(shí)踐與測(cè)試

　　上圖展示的是我們?cè)赟kylake也就是Gen 9上測(cè)試硬件轉(zhuǎn)碼能力的結(jié)果。GT2、GT31、GT41三個(gè)型號(hào)性能遞增；TU1、TU2、TU4、TU7表示編解碼性能與圖像質(zhì)量的均衡程度，其中TU7表示最快的處理速度和較差的圖像質(zhì)量，TU1表示基于大量計(jì)算得到的較高圖像質(zhì)量。

　　上圖展示的是Skylake對(duì)HEVC支持的性能數(shù)據(jù)，其中的分辨率為1080P，其實(shí)HEVC 4K60p也能得到很好的性能。隨著輸出圖像質(zhì)量的提升，轉(zhuǎn)碼速度也會(huì)相應(yīng)降低，但在正常使用中我們主要根據(jù)需求平衡性能與質(zhì)量，在較短時(shí)間內(nèi)實(shí)現(xiàn)較高質(zhì)量的轉(zhuǎn)碼輸出。

　　如果重點(diǎn)分析圖像質(zhì)量，在實(shí)踐中我們建議使用Medium模式得到相對(duì)較優(yōu)的性能與質(zhì)量。隨著參數(shù)的變化，PSNR與圖像的整體細(xì)節(jié)會(huì)出現(xiàn)較明顯變化。

　　Source Code主要有以下兩種途徑：可以從FFmpeg上直接clone，也可以訪問(wèn)Intel的Github獲得相應(yīng)源代碼。Intel的github上的分支中的FFmpeg qsv模塊是經(jīng)過(guò)Intel的測(cè)試，相對(duì)而言問(wèn)題更少運(yùn)行更加穩(wěn)定，大家也可以在Intel的Github上提出相關(guān)問(wèn)題，我們會(huì)對(duì)部分問(wèn)題進(jìn)行解答。

　　上圖展示的是實(shí)踐中可能需要的一些使用命令參考，其中我想強(qiáng)調(diào)的是Overlay Filter，在這里我們支持多種模式，包括插入臺(tái)標(biāo)的、電視墻等，也可在視頻會(huì)議等場(chǎng)景中實(shí)現(xiàn)人工指定確定畫(huà)面中每一個(gè)圖片的位置等效果。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

英特爾QSV技術(shù)在FFmpeg中的實(shí)現(xiàn)與使用

評(píng)論排行

推薦閱讀

專題

大家都在看