2008/05/30
關(guān)于色彩彩色圖像通常用幾個“色彩層”來呈現(xiàn)。例如,RGB彩色圖像包含紅色層、綠色層和藍色層。每一個層包含單一色彩(紅色、綠色或藍色)的整個圖像。當(dāng)這三層重疊或混合后,將組成全彩圖。為將彩色圖像進行壓縮,本文描述的靜態(tài)圖像壓縮方法將依次應(yīng)用到每個色彩層。
視頻壓縮應(yīng)用通常使用一種色彩層不對應(yīng)特定色彩的色彩方案。通常是,一個色彩層包含亮度信息(彩色圖像中每個像素的總亮度),兩個層包含色彩(色度)信息,色度信息與亮度信息結(jié)合起來可以得到每個圖像像素特定紅、綠和藍色彩。
這樣的色彩方案非常方便,因為人眼對亮度比對色度更敏感,因此色度層的編碼和存儲圖像分辨率都比亮度信息更低。特別是視頻壓縮算法通常對色度層的垂直和水平編碼的分辨率都僅為亮度層的一半。因此,在亮度層中的每個16 x16像素區(qū)域內(nèi),每個色度層包含一個8x8像素的塊。在典型的視頻壓縮算法中,“宏塊”為視頻幀中的一個16x16像素的區(qū)域,該宏塊包含4個8x8亮度塊,以及兩個對應(yīng)的8x8色度塊。宏塊允許采用后面介紹的運動估計和補償,這兩個技術(shù)將與上面介紹的色度層次采樣結(jié)合使用。
增加運動因素
使用上面介紹的方法,像JPEG這樣的靜態(tài)圖像壓縮算法可以在壓縮率為10:1的條件下獲得很好的圖像質(zhì)量。最先進的靜態(tài)圖像編碼器在壓縮率高達30:1下也能獲得很好的圖像質(zhì)量。視頻壓縮算法采用運動估計和補償可以利用連續(xù)視頻幀之間的相似性。這樣可以使視頻壓縮算法在壓縮率達200:1的情況下獲得很好的視頻質(zhì)量。
在某些視頻場景下,例如新聞節(jié)目中運動圖像很少。在這種情況下,每個視頻幀中的8x8像素的塊大部分與前一幀是相同的,或者接近相同。壓縮算法通過運算兩個幀之間的差異性可以利用這一事實,利用上面介紹的靜態(tài)圖像壓縮方法來對這種差異性進行編碼。對于大部分圖像塊來說,這種差異性很小,與單獨對每個幀進行編碼相比,這種方法需要的編碼數(shù)據(jù)位非常少。然而,如果攝像機是進行搖攝的或者場景中某個大的物體在移動,那么每個塊將不再與前一幀中對應(yīng)塊相同。相反,與前一幀中8x8像素區(qū)域相似的塊位置發(fā)生了偏移,產(chǎn)生了與運動方向?qū)?yīng)的一個距離。值得注意的是,每個視頻幀通常由兩個色度層和一個亮度層組成,如上面所述。很顯然,每個層的運動情況是相同的。盡管亮度和色度層的分辨率不同,為利用這種事實,以宏塊而不是以三個層中單獨的8x8像素塊進行運動研究。
運動估計和補償
運動估計是嘗試發(fā)現(xiàn)在前一編碼幀(稱為“基準(zhǔn)幀”)中的一個與當(dāng)前幀中每個宏塊緊密匹配的區(qū)域。對于每一個宏塊來說,運動估計產(chǎn)生一個“運動矢量”。運動矢量是由當(dāng)前幀中宏塊相對于所選擇的16x16像素區(qū)域的基準(zhǔn)幀中位置的水平和垂直偏移組成。視頻編碼器通常使用VLC來對視頻碼流中的運動矢量進行編碼。所選擇的16x16像素區(qū)域被用于當(dāng)前宏模塊中像素的預(yù)測,使用上面介紹的靜態(tài)圖像壓縮方法來進行宏塊之間的差異以及所選擇區(qū)域(預(yù)測誤差)的運算和編碼。絕大多數(shù)的視頻壓縮標(biāo)準(zhǔn)允許在編碼器不能發(fā)現(xiàn)宏塊的足夠好的匹配時,忽略這種預(yù)測。這時,對宏塊本身進行編碼,而不是對預(yù)測誤差進行編碼。
值得注意的是,基準(zhǔn)幀并不總是連續(xù)視頻幀中的前一個顯示幀。視頻壓縮算法通常對幀的編碼順序與他們顯示的順序是不相同。編碼器可能向前跳過幾個幀,對未來的幀進行編碼,然后跳回來,對顯示序列中的下一個幀編碼。之所以這樣做,是因為可以利用編碼的未來幀作為基準(zhǔn)幀向后及時地實現(xiàn)運動估計。視頻壓縮算法還可以使用兩個基準(zhǔn)幀—一個是前面已顯示的幀,一個是前面已編碼的未來幀。這樣允許編碼器從任意一個基準(zhǔn)幀中選擇一個16X16像素的區(qū)域,或者在前面顯示幀的16X16像素區(qū)域和未來幀的16X16像素區(qū)域之間通過插值方法預(yù)測一個宏塊。
依賴前一個編碼幀來對每一個新幀解碼進行修正的一個缺點是,一個幀的傳遞錯誤會使每個緊隨而來的幀不能重建。為緩解這個問題,視頻壓縮標(biāo)準(zhǔn)偶爾只使用靜態(tài)圖像編碼方法對一個視頻幀進行編碼,而不需依賴于前一個編碼幀。這些幀就成為“內(nèi)幀”(或I frame,即I幀)。如果壓縮碼流中的一個幀因為錯誤而被破壞,視頻解碼器必須等到下一個I幀,這種方法就不需要基準(zhǔn)幀來進行視頻重構(gòu)。
僅僅使用前一個顯示的基準(zhǔn)幀來編碼的幀被稱為“P幀”,同時使用前一個顯示幀和未來幀作為基準(zhǔn)幀進行編碼的幀稱為“B幀”。在通常的場景中,編解碼器編碼一個I幀,然后向前跳過幾個幀,用編碼I幀作為基準(zhǔn)幀對一個未來P幀進行編碼,然后跳回到I幀之后的下一個幀。編碼的I幀和P幀之間的幀被編碼為B幀。之后,編碼器會再次跳過幾個幀,使用第一個P幀作為基準(zhǔn)幀編碼另外一個P幀,然后再次跳回,用B幀填充顯示序列中的空隙。這個過程不斷繼續(xù),每12到15個P幀和B幀內(nèi)插入一個新的I幀。例如,圖1種給出了一個典型的視頻幀序列。

圖1:典型的I、P和B幀序列。
視頻壓縮標(biāo)準(zhǔn)某些時候限制運動矢量的水平和垂直分量,這樣在運動估計時每個宏塊和所選擇的16x16像素區(qū)域之間最大可能的距離會遠小于幀的寬度或高度。這種限制輕微地減少了對運動矢量進行編碼所需要的數(shù)據(jù)位數(shù),也減少了執(zhí)行運動估計所需要的運算量。包含在允許的運動矢量中的所有可能的16x16像素區(qū)域的基準(zhǔn)幀部分被稱為“搜尋區(qū)域”。
視頻壓縮算法采用了多種技術(shù),例如運動估計、轉(zhuǎn)換和可變長度編碼。盡管大多數(shù)當(dāng)前的視頻壓縮算法共享這些的基本任務(wù),在算法和實現(xiàn)方法上存在大量的變化。例如,在不同的編碼器中,甚至即使符合相同的壓縮標(biāo)準(zhǔn),執(zhí)行運動估計的算術(shù)方法和實現(xiàn)方法都可能不同。此外,對于某個信號處理任務(wù)來說,最有效的實現(xiàn)方法對于不同的處理器來說也可能有很大的差別,即使每個處理器使用一種相似的算法。最后,某些任務(wù)的運算量,如運動補償,根據(jù)不同的視頻節(jié)目內(nèi)容變化很大。因此,在某個特定的處理器上,視頻編碼器或解碼器的運算負(fù)擔(dān)很難以預(yù)測。
盡管有這些可變性,依然可以很容易地發(fā)現(xiàn)幾個趨勢:
運動估計是視頻壓縮處理中運算需求最大的任務(wù),通常使編碼器的運算負(fù)擔(dān)為解碼器的幾倍。
解碼器的運算負(fù)擔(dān)通常決定于可變長解碼、逆轉(zhuǎn)換和運動補償功能。
運動估計、運動補償、轉(zhuǎn)換和量化/去量化任務(wù)的運算負(fù)擔(dān)通常與每個幀的像素數(shù)量和幀率成正比。不同的是,可變長解碼功能的運算量與壓縮視頻碼流的碼率成正比。
在解碼后的視頻流中應(yīng)用的后處理步驟,即去馬賽克、去環(huán)狀瑕疵以及色彩空間轉(zhuǎn)換都大大地增加了視頻解碼應(yīng)用的運算負(fù)擔(dān)。這些功能的運算負(fù)擔(dān)會很容易地超過視頻壓縮步驟,與每個幀的像素數(shù)量以及幀率成正比。
相比于運算量的預(yù)測,視頻壓縮應(yīng)用的存儲器要求的預(yù)測容易得多:在視頻壓縮應(yīng)用中,存儲器主要取決于用于存儲當(dāng)前和基準(zhǔn)幀的大容量緩存。如果壓縮方案支持I-和P-幀,只需要兩個幀緩存;如果還支持B-幀的話,則需要三個緩存。像去馬賽克、去環(huán)狀瑕疵、色彩空間轉(zhuǎn)換的后處理步驟可能需要另外的輸出緩存。這些緩存的大小與每個幀的像素數(shù)量成正比。
與像程序存儲器、查找表以及中間數(shù)據(jù)等因素相結(jié)合,組成通常視頻應(yīng)用的存儲器需求的重要部分,盡管這個部分通常只有幀緩存存儲器的幾分之一。
實現(xiàn)高度優(yōu)化的視頻編碼和解碼軟件需要徹底地理解本文介紹的目標(biāo)處理器的信號處理概念。大多數(shù)的視頻壓縮標(biāo)準(zhǔn)不會規(guī)定運動估計的方法。盡管基準(zhǔn)編碼器適合于大多數(shù)的標(biāo)準(zhǔn),深入了解視頻壓縮算法通常允許設(shè)計師利用更多成熟的運動估計方法,并獲得更好的結(jié)果。此外,全面理解信號處理原理,實現(xiàn)信號處理功能,以及了解目標(biāo)處理器的細(xì)節(jié)知識對于有效地將視頻壓縮算法中的各種任務(wù)對應(yīng)到處理器的結(jié)構(gòu)資源來說是非常重要的。
Berkeley設(shè)計技術(shù)公司