由於科技的蓬勃發展下,使得人類使用手持裝置的比例有逐年往上昇高的趨勢,像是最近很風行的蘋果電腦推出之 IPOD mp3 隨聲聽,HTC 在Microsoft大力加持下,大賣的Smart Phone手機,以及擁有更高頻寬及影音享受的3G手機的問世,再再都顯示出手持嵌入式系統將會是近幾十年來最當紅的炸子機,除了硬體的日趨縮小外,軟體在其上的運用的需求也大量的增加許多,像是及時影像傳輸,GPS導航等等軟體應用也紛紛出籠,而語音辨識的功能也是這諸多軟體方面應用之一,試著想像對著你的手持mp3裝置,用說的來找尋你所要聽的歌曲或是對著你的手機說 “最近的電影院” ,然後你的手持裝置就會播放你所要聽的歌曲或是顯示出距離你最近之電影院的地圖並告知你該如走哪條路到那邊。很不幸的這些美妙的應用目前還不能實現,最大的因素還是在於手持嵌入式系統的運算能力過於薄弱無法再有效的時間內完成所需的語音辨識應用。 最近手持裝置產品在市場的推陳出新及各家廠商競爭之下,慢慢的配備了較佳運算能力的中央處理器以及較大的儲存空間,以提供消費者更多的應用上的需求。雖然在配備上有所提升,但是所有的機器還是沒有搭載浮點運算器,導致我們必須要採取整數型態的資料來替代語音辨識中慣用的浮點資料型態。本論文將會嘗試著建立一個自動化的系統,讓從擷取聲音的特徵到建立整個整數型態的聲學模型及最後的ASR(語音辨識系統),均可以依據不同的語料,提供較正確合理的轉換參數,讓整個ASR系統能在嵌入式手持裝置上運作得宜。
In this thesis, we investigate the possibility of porting the computation of floating-point MFCCs to fixed-point ones. In particular, we focus on the platform of 32-bit fixed-point processors. We have closely checked the scaling factors during each stage of the computation of MFCC by using a data-driven approach. These scaling factors are carefully chosen such that the highest precision is achieved with low probabilities of overflow. Moreover, we have proposed a binary-search-based table lookup such that the required table size is reduced. In summary, the proposed methodology can greatly reduce the memory requirement without degrading recognition rates.