• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
     首頁(yè) > 技術(shù) > 技術(shù)文摘 > H.264/AVC視頻編碼變換量化核的硬件設計

    H.264/AVC視頻編碼變換量化核的硬件設計

    2012-01-17 00:00:00   作者:   來(lái)源:   評論:0 點(diǎn)擊:



      摘要:基于H.264/AVC視頻編碼標準,完成了編碼模塊中的4×4整數變換量化核的分析和硬件實(shí)現的優(yōu)化設計。通過(guò)三種優(yōu)化設計處理后,在硬件開(kāi)銷(xiāo)改變不大的情況下,使4×4整數變換量化核的最高工作頻率相比優(yōu)化前的30.7MHz提高了82%,達到55.8MHz,為H.264/AVC視頻編碼標準的硬件實(shí)現提供了參考。
      隨著(zhù)數字化視頻技術(shù)在視頻電話(huà)、視頻會(huì )議、DVD以及高清晰度數字電視等方面的應用,視頻壓縮標準也隨之不斷發(fā)展。ITU-T制定的H.26x系列和ISO/IEC制定的MPEG-x系列,是視頻領(lǐng)域中兩大獨立的主流視頻壓縮標準。2003年,這些組織又聯(lián)合推出新的視頻壓縮標準H.264/MPEG-4 -10AVC,簡(jiǎn)稱(chēng)H.264/AVC。H.264/AVC采用一系列新的壓縮方法[1],可獲得更好的壓縮效果,其壓縮率達到以往標準的1.5~2倍[2]。因此,基于這一標準的相關(guān)研究和硬件實(shí)現具有重要的意義。視頻壓縮硬件實(shí)現的關(guān)鍵是編解碼模塊,其中尤以編碼模塊最為核心。本文主要研究編碼模塊中的4×4整數變換量化核,提出硬件實(shí)現的優(yōu)化方法,并采用Verilog HDL語(yǔ)言進(jìn)行硬件設計和綜合。
      14×4整數變換量化核的原理
      在以前的視頻編碼標準如MPEG-2和H.263中,對于預測的殘差數據都是采用8×8離散余弦變換(DCT)[1]作為變換的基本運算操作;而在H.264/AVC編碼標準中,則采用類(lèi)似DCT變換形式的基于4×4像素塊的整數變換。由于變換塊的尺寸縮小,運動(dòng)物體的劃分更精確,而且運動(dòng)物體邊緣處的銜接誤差大為減小。
      對于整數變換方式,4×4像素塊的變換公式[3]為:
    \

      式中,(CXCT)是二維變換核,Ef是縮放因子矩陣,符號表示CXCT矩陣里的每個(gè)元素和Ef矩陣中相同位置的元素相乘,a=1/2,b=
    \
    為了更有效地壓縮數據,需要利用量化的方法對變換后的數據進(jìn)行有損壓縮。同時(shí),由于整數變換需要利用矩陣行向量的歸一化因子進(jìn)行系數縮放處理,為降低變換的運算量,在H.264/AVC標準中將變換的系數縮放并進(jìn)行量化運算處理,避免了復雜的實(shí)數運算和除法運算,更有利于硬件的實(shí)現。
      對于量化方式,正向量化運算可由如下公式[3]實(shí)現:
    \

      式中,Zij為量化后的系數;Wij為變換矩陣W=CXCT中的元素;MF=
    \
    ·2q,PF稱(chēng)為縮放系數,根據元素在陣列塊中的不同位置,其取值如表1所示,Qstep為量化步長(cháng),由0至51共52個(gè)量化參數QP決定,QP增加1,Qstep增加12.5%;q=15+QP/6,QP/6取整數;對于幀內宏塊f取2q/3,幀間宏塊f取2q/6。需要指出的是,MF的值可根據PF和QP的取值經(jīng)簡(jiǎn)單計算得到,并可形成表格,通過(guò)查表方式便可實(shí)現硬件運算,并有效地提高了運算速度。
    \

      24×4整數變換量化核的優(yōu)化設計
      為進(jìn)一步提高硬件運算速度,減少硬件開(kāi)銷(xiāo),設計中采用了如下優(yōu)化方法:
      (1)在求取變換陣W=CXCT時(shí),根據變換的對稱(chēng)性,將X的列變換(矩陣左乘)與行變換(矩陣右乘)分開(kāi)實(shí)現,把二維變換分割為兩次一維變換,并采用快速堞形算法[4]來(lái)實(shí)現。一維變換的快速算法實(shí)現如圖1所示,其中的列變換可用如下算式表示:
    \

      (2)針對不同運算的位寬需要,設計專(zhuān)用的加法器和乘法器。本文對整數變換中的加法器采用三級流水線(xiàn)加法器,實(shí)現9位加法,每級流水線(xiàn)完成三位超前進(jìn)位加法,將邏輯延遲限制在三位加法器之內。圖2給出了9位加法器的流水線(xiàn)實(shí)現框圖。選用EPF10K10LC84-3作為適配器件,經(jīng)過(guò)Synplify Pro 7.3綜合,結果表明這種加法器具有較優(yōu)的最高工作頻率和硬件開(kāi)銷(xiāo)。如表2所示, 常規加法器的最高工作頻率為37.0MHz,消耗資源卻為28LC,而經(jīng)過(guò)優(yōu)化的三級流水線(xiàn)加法器在消耗資源增加不多的情況下,其最高工作頻率相比常規加法器提高了257%,達到94.5MHz。
    \


      (3)對于f的計算,在不影響運算精度的情況下本文采用近似處理。為了避免除法運算,將f的計算式變形,即:
      f=2q/3=(215/3)×2m≈[(215+1)/3]×2m≈10923×2m
      式中, m取值為0~8,具體由相應的QP給出。由于f在完成加法運算后其結果還需左移q位,所以計算精度不會(huì )受影響。這樣,對f的計算只需進(jìn)行移位操作。
      34×4整數變換量化核硬件實(shí)現
      基于上述算法原理及其設計,本文首先對4×4整數變換量化模塊進(jìn)行C語(yǔ)言編程,驗證了該模塊所采用算法的正確性。然后采用Verilog HDL語(yǔ)言描述4×4整數變換和量化核(幀內模式)的硬件功能,并通過(guò)仿真軟件Modelsim SE 5.7進(jìn)行功能仿真,驗證了該模塊輸出結果與設計要求相一致。最后采用Synplify Pro7.3綜合工具,并以Altera公司的Stratix系列FPGA作為主要目標適配器件進(jìn)行綜合。
      4×4整數變換量化核的二大子模塊的綜合結果如表3所示,表中同時(shí)給出經(jīng)本文優(yōu)化設計前后的綜合結果作為對比。可見(jiàn),經(jīng)本文采用的三種優(yōu)化設計處理后,在硬件開(kāi)銷(xiāo)改變不大情況下,變換子模塊的最高工作頻率達到59.4MHz,是未優(yōu)化前的1.73倍,而量化子模塊的最高工作頻率達到55.8MHz,是未優(yōu)化前的1.82倍。4×4整數變換量化核的最高工作頻率取各子模塊的最低頻率,這樣其優(yōu)化后的最高工作頻率是55.8MHz,相比優(yōu)化前的30.7MHz提高了82%。
    \

      本文對H.264/AVC協(xié)議中的4×4整數變換量化核從算法原理到硬件實(shí)現進(jìn)行了分析和設計。采用自頂向下的Verilog HDL設計流程,實(shí)現了4×4整數變換量化核硬件功能的優(yōu)化設計,模塊的最高工作頻率提高了82%,為H.264/AVC視頻編碼標準的硬件實(shí)現提供了參考。

    《電子技術(shù)應用》

    相關(guān)閱讀:

    分享到: 收藏

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 嘉兴市| 东至县| 延寿县| 崇左市| 内乡县| 彰化市| 额济纳旗| 家居| 根河市| 日照市| 津市市| 哈密市| 务川| 三台县| 津市市| 鄱阳县| 渝北区| 十堰市| 蒙阴县| 资中县| 万荣县| 日喀则市| 桂林市| 辽中县| 措美县| 当涂县| 洛南县| 汉源县| 德昌县| 固镇县| 金寨县| 岳池县| 永仁县| 柘城县| 区。| 鄂托克前旗| 高邑县| 策勒县| 潮安县| 新巴尔虎右旗| 白水县| http://444 http://444 http://444 http://444 http://444 http://444