為了使語音辨識成為隨時隨地都可以使用的人機介面,探討如何提高其強健性,減低環境不匹配對辨識率的影響,便成為一個很重要的研究方向。本論文即是藉由前端對辨識參數的處理來提升對聲學環境改變的強健性。 本論文以兩種最為主流的特徵參數,亦即梅爾倒頻譜係數(Mel Frequency Cepstrum coefficient,MFCC)與感知線性預測參數(Perceptual Linear Prediction)為對象,分別結合各種強健性處理的技術,並討論將來兩種特徵參數整合的可能性。 實驗結果顯示,在未曾結合任何強健性處理時,感知線性預測參數的效果要比梅爾倒頻譜係數要好,在乾淨語音訓練模式下,對所有的測試條件做平均之後,感知線性預測參數基礎實驗的正確率為63.38%,而梅爾倒頻譜係數僅為60.3%,但結合強健性處理之後,兩者便介於伯仲之間。若嚐試將各種強健性的方法以串接的方式結合,那麼就會發現僅有某些結合有加成性,而大部分都是沒有的。本論文並仔細測試出兩種有加成性的組合方式,分別是將特徵參數向量正規化之後再結合多特性向量時域濾波器,以及兩階式維納濾波器結合訊噪比相關波形處理法及盲目等化法,後者事實上與ETSI所提出的進階式前端處理(Advance Front End)[24]的差異僅是本論文同時測試了使用梅爾倒頻譜係數及感知線性預測參數的狀況,然後比較了兩者的差異。 本論文最後進一步嚐試用各種不同的方式去整合兩種不同的特徵參數,希望利用兩者間互補的資訊得到比兩者任一都要好的結果。實驗結果顯示,整合後的確可獲得較佳的結果。