我們提出H.264/AVC解碼中去區塊雜訊濾波器的高效能全硬體架構設計。基於QFHD (4X FULL 1080HD) 解碼器嚴苛的高效能需求,我們的架構分別在處理週期,晶片外部記憶體存取,以及運作時脈三方面同時進行效能的最佳化,針對處理週期,我們達到近於理論最佳值的執行週期。針對外部記憶體存取考量,我們在內部記憶體與外部記憶體存取之間取得最佳平衡,使得我們架構能以少量的內部記憶體便能省下大部分的不必要的外部記憶體資料量。針對運作時脈,我們以五級管線架構來實現我們的邊緣濾波器,使得此架構更能夠進一步提升運作頻率滿足高頻高效能的視訊應用。此創新架構成功地利用演算法的彈性,使我們的邊緣濾波器可在單週期執行雙濾波功能,其中,我們提出的邊緣濾波器具有提前遞送的機制來避免管線延遲以及減少像素轉向暫存器的數量。另一方面,我們的架構可依照區塊雜訊在邊界強度的分佈情形來動態調整電路模式,因此在處理P 或是B 的視訊畫面時,此架構可更進一步利用快速略過模式來縮短執行週期以及減少外部記憶體存取。除此之外,我們還利用硬體共享的方式使我們能以有效的晶片面積實現此超高效能架構。根據這些創新,我們提出的架構能滿足超高效能以及低功耗的視訊應用,並僅以195 MHZ的時脈支援QFHD每秒60張畫面的即時解碼。
We propose a high-performance hardwired Deblocking Filter (DF) for H.264/AVC video decoding. To fulfill the demand of ultra high throughput for QFHD (4x Full 1080HD), we optimize processing cycle, external memory access and working frequency of our architecture. Our Two-Result-Per-Cycle edge filter achieves near optimal processing cycle. It takes only 48 clock cycles to filter a macroblock in best case and 100 in worst case. Furthermore, it can save most unnecessary off-chip memory traffic with efficient on-chip memory. Our circuit supports skip mode to further reduce processing cycles and off-chip memory access in inter-predicted frame. Also it employs a 5-stage pipelined, and hardware-shared dual-edge-filter to generate two filtering results every cycle. Running at 195 MHz, it can support QFHD @ 60fps application.