為了使語音成為隨時隨地都可以使用的人機介面,探討如何減低環境不匹配對辨識率影響的強健性研究,便成為一個很重要的研究方向,本論文即是藉由前端對辨識參數的處理來提升對聲學環境改變的強健性。 本論文提出了一種新的特徵參數正規化的方法:同步式分佈等化法,它能夠把受到雜訊特性影響的時變特徵參數分布轉換到一個固定不受聲學環境改變的參考分布。 這種方法考慮到雜訊特性並不穩定的特性,將分佈等化法之參考區間縮短,並讓參考區間隨著特徵參數同步移動;在AURORA2乾淨語音訓練模式下,若選用梅爾倒頻譜係數作為特徵參數,對各種雜訊及各種訊噪比進行平均,則使用同步式分佈等化法前後的詞正確率分別是61.08%和82.61%;若是以時域頻域主成分特徵參數作為特徵參數,其辨識率更是由49.54%進步到82.11%。除了辨識率的提升,由於同步式分佈等化法所需的延遲時間較短,因此更適合與有及時性需求的應用結合。此外,我們提出了降低它計算複雜度的方法,以提高其實際應用性;並觀察了雜訊性質及理想參考區間長度間的關係。 我們亦發現到兩階式維納濾波器、訊噪比相關波形處理法及多特性向量時間濾波器等既有的強健性處理法和同步式分佈等化法間有很好的加成性,將它們整合可成為一套具有高度強健性的前端處理流程。單獨使用兩階式維納濾波器或是再加上訊噪比相關波形處理法,對於加成性雜訊有很好的效果,但在通道特性改變時,辨識率仍有進步空間。在把同步式分佈等化法和這兩種前端處理整合之後,通道特性對辨識率的影響便大幅降低。進一步加入多特性向量時間濾波器技術後,各種雜訊的平均辨識率大致是進步的,尤其在低訊噪比時,提升最為顯著。結合前述各種方法的前端處理流程,和歐洲電信標準協會最近提出的進階前端處理相較,它不僅在加成性雜訊和通道特性改變這兩種環境不匹配同時存在的情況下有較好的效能;當訊噪比較低,環境不匹配較嚴重的情況下,也有著較高的辨識率。 雖然前人的實驗顯示,時域頻域主成分特徵參數在訓練及測試聲學環境匹配的條件下,表現比梅爾倒頻譜係數好;但我們觀察到當它單獨使用時,不太有強健性。然而在加上同步式分佈等化法之後,它和梅爾倒頻譜係數平均的效能就相當接近了,大致說來,環境不匹配較嚴重時,梅爾倒頻譜係數展現較佳的強健性;但在其他情形下,則以時域頻域主成分特徵參數的辨識率較高。