透過您的圖書館登入
IP:18.116.239.195
  • 學位論文

針對行動多媒體系統的可向量式與重組式串流多媒體處理器設計

Scalable and Reconfigurable Stream Processor for Mobile Multimedia System

指導教授 : 陳良基
共同指導教授 : 簡韶逸

摘要


隨著半導體技術的進展,多媒體處理平台已經從個人桌上型電腦演進至各式各樣的嵌入式平台特別是手持式裝置上。對於多媒體應用的需求與日俱增諸如, 視訊串流,數位影像處理,與及時互動3D遊戲,都需要配置高效能的處理器。 在手持式行動裝置系統中隨著功耗與晶片大小的限制,微處理器的設計遭遇到效能與功耗嚴重的挑戰。另一方面,針對特定功能的硬體加速器在行動裝置系統中雖然提供了良好的效能與功率比但是缺乏彈性與無法重新編成的缺點導致了晶片整體利用率降低與成本的增加。整合越來越多的特定功能, 將伴隨著要整合越來越多的個別的硬體加速器使得此問題越趨嚴重。而當個別的加速器在運作時往往其他功能的加速器處於閒置狀態造成整體系統的使用率下降。 串流處理技術是一個強大針對多媒體運算的編程模型。 他分離了系統中的資料串流, 與運算串流有別於傳統微處器與數位訊號處理器單一資料處理串流的模型. 大大提高了處理核心中,指令運行的效率,平行度以及達到資料流的平行管路化. 基於此編程模型,本論文在演算法層級,架構設計層級,以及電路設計層級分析了各種最佳化的方法。本論文詳細的探討了串流處理器應用在繪圖管路與視訊壓縮技術的關鍵技術與提出相關的創新架構.最後提出了一個創新的低功耗串流處理器架構以提供高效能,低功耗,以及高成本效率的行動多媒體平台。 第一章與第二章,介紹了此論文的動機與在行動平台上的設計挑戰,並整理出本論文創新的貢獻。接下來回顧桌上型高效能繪圖處理器的演進,以及目前低功耗繪圖處理器的進展。最後是目前具代表性的高效能串流媒體處理器介紹以及其在低功耗領域上應用所面臨的挑戰。 第三章討論了在低功率串流系統中實作繪圖系統的介紹以及架構上的討論。針對OpenGL-ES 2.0標準下。以串流模型中的串流提取與寫回模型對應幾何物件的搬移與畫素的寫出。以串流模型中的核心計算模型對應可編程頂點與畫素渲染器的實作。其於特定功能繪圖模組基於低功耗的考量將以特殊功能低功率架速器方式與以實作輔助整個串流核心對於繪圖應用達到高效能與低功率與高晶片效率的目標。 第四章探討了針對多媒體應用中重要的視訊壓縮技術-移動估計,在現有高效能繪圖處理器上的實作。我們提出了多迴路,畫面層級的平行演算法來加速最新視訊標準-H.264中的各種移動估計工具。藉由多重迴路展開演算法中的多重迴圈及重新安排資料結構,在現行的繪圖處理器中我們可以用兩次的迴路運算達到整數點移動估計。而小數點移動估計需要做到六級數的線性內插得到多重取樣點畫面然後進行移動向量重新校正,最終我們使用了六個迴路運算及可達到。而多重參考畫面技術則利用了繪圖處理器強大的單一指令多重資料的向量處理特性,使用了兩個迴路畫面平行處理的運算及可達到倍速的加速。實驗分析得到,藉由繪圖處理器的輔助可以達到六倍到二十五倍的加速。 第五章提出了本論文中的多項串流處理器核心技術以達到高效能低功耗。 第一項技術,一個最佳化的核心處理管路被提出,其利用了雙指令執行超長指令集架構與動態關閉技術達到每秒四億的浮點運算能力以及八億的整數點運算能力。第二項技術,可調式多執行緒技術可增加硬體的使用率進而達到效能上的提昇。第三項技術,重組式記憶體陣列可以達到快取記憶體的功能進而減少外部記憶體的頻寬需求。第四項技術,針對繪圖處理的應用,我們提出一個可以提早濾除無法視見型別的三角形架構,來達到節省不必要的運算功耗進而達到效能的提昇。第五項技術,針對視訊編碼應用,移動估計佔系統中最大量的運算資源。我們提出視訊導向的指令集來有效率的支援移動估計大幅的提升效能與減低功耗。並利用電路層級與架構層級的資料路徑共享達到最佳的晶片成本。 第六章針對了行動平台中有限的頻寬存取資源提出了一繪圖應用上最佳化的演算法。深度資訊對整個繪圖系統中占據了重要的角色。我們在此提出了可調式格狀深度濾除演算法,來達到提早濾除不必要的繪圖畫素來減少頻寬更進而減少功耗以及提高效能。傳統格狀濾除方法,使用了固定格狀區域深度的最大值以及最小值達到提早濾除的目的。本方法提出了覆蓋遮罩以及多重模式格狀技術達到更高的濾除率。然而硬體上相對於原本的架構只需要少許的電路。最後實驗結果顯示可以減少40%的記憶體頻寬。 第七章我們延續前面章節所有的技術並加以延伸至晶片系統層級。最後完成了一90奈米製程的多核心串流處理系統晶片。我們利用了系統層級的功率感知頻率調整技術以及多核心動態排程技術達到低功耗高效能的目標。接著針對串流處理器的可向量性及可重組性加以分析,延續之前重組化記憶體陣列的特性, 提出當設計非常多核心串流系統時,其可重組性特性可以減少多少記憶體頻寬.最後晶片量測數據得到僅在26毫瓦下,就可以得到兩億個頂點輸出及四億個畫素輸出。 最後一章,將本論文中之前各章節的創新技術做一個摘要。並提出未來可以延伸的相關研究主題。

關鍵字

多媒體 行動 串流 處理器

並列摘要


Duo to the semiconductor process advance, the multimedia processing platform is evolving from the PC to the embedded system especially in the portable device. For the demands of mobile multimedia applications such as video streaming, image processing, and interactive graphic game, there are more and more mobile platform equipping with powerful processor. With the power and cost constraint in mobile system, the microprocessor suffers from the challenge between the performance and power. In other hand, the special customized dedicate accelerator provides a optimized power to performance ratio for the mobile system. Nevertheless, lack of the flexility and programmability makes the system suffering from the cost efficiency. Accompanying with more and more features being added in the mobile system, there are more and more dedicated accelerator needs to be intergraded into. When one of the special function accelerator is working, usually, the others function units will stay in idle and decrease the whole system utilizationrate. Stream processing is a powerful programming model for multimedia signal processing. Base on this programming model, this dissertation analyzes the optimized point from the top algorithm level to architecture level down to the circuit level and develops an low power streaming architecture to provide the high performance, cost efficiency and low power consumption for the mobile multimediaplatform. An OPENGL-ES2.0 rendering pipeline is implemented. The full programmable shader feature demonstrates up to 200Mvertices/s and 400Mpixels/s performance on the mobile graphic application and the power consumption is around 26mw. In addition to graphic application, the video coding system is also a important feature in the mobile platform. We implemented the motion estimation library which is the most computationally intensive task in the video coding. The full search block matching algorithm can be achieved 30 CIF (352x288) frames per second with search range H[-24,24),V[-16,16). Finally, an multi-cores SoC architecture is provided. We give several scalable and reconfigurable possibility in this architecture. More advance power aware clock optimization for SoC level is also discussed. This streaming base architecture provides several optimized points form the algorithm, architecture to circuit. From the silicon measurement data, it actually archives a good performance to power ration, flexibility and cost efficiency for the mobile multimedia platform.

並列關鍵字

Stream Mobile Processor Multimedia

參考文獻


Proc. IEEE/ACM International Symposium on Microarchitecture (MICRO-
35), 2002, pp. 306–317.
[3] “Compute unified device architecture,” , 2007.
[4] “Evolution of gpus,” , 2004.
2003, July 2003, pp. 801–808.

延伸閱讀