透過您的圖書館登入
IP:18.222.115.120
  • 學位論文

基於變數選取聲學模型調適法之強健式語音辨識

Acoustic Model Adaptation with Variable Selection for Robust Speech Recognition

指導教授 : 李琳山
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


聲學模型調適是改善聲學環境不匹配問題,增進語音辨識系統效能的一個重 要方向。仿射轉換方法(affine transformation) ,如最大相似度線性回歸(Maximum Likelihood Linear Regression, MLLR) ,在一般的聲學模型調適任務中有很好的效果。然而在缺乏調適語料及正確轉寫(transcription) 的自我調適情境(self adaptation)下,一般的仿射轉換調適方法容易造成過度貼合(over-fitting)問題。為此,本論文利用變數選取(variable selection) 的技術,提出兩種方法: 變數選取-最大相似度線性回歸(Variable Selection MLLR, VSMLLR) 以及變數選取-特徵最大相似度線性回歸(Variable Selection feature MLLR, VSfMLLR)。這兩種方法先以一些事前知識建構變數子集,再基於各變數子集以最大相似度準則求出對應的仿射轉換矩陣,最後利用正則化訓練準則(regularization criterion) 當作子集與其對應仿射轉換的評量分數。利用此方法,我們可以在系統上線時,即時為每句測試語料找出適合的變數子集、有效控制調適參數的複雜度、克服過度貼合問題並使辨識率進步。當這些方法實做在Aurora-4語料庫上時,可發現測試集的辨識率較基本系統有顯著的進步。並勝過了一般常見的仿射轉換調適法,以及各種正則化訓練準則的延伸。相較於基本系統的77.47%字正確率,在沒有額外的調適語料的條件下, 變數選取-最大相似度線性回歸以及變數選取-特徵最大相似度線性回歸分別將字正確率提升至80.10%與81.15%,相對進步率分別為11.67%以及16.33%。

並列摘要


參考文獻


[1] “DSP history - understanding speech: An interview with john makhoul,” IEEE
Signal Processing Magazine, pp. 76–79.
[2] Douglas O’Shaughnessy, “Invited paper: Automatic speech recognition: History,
[3] M. J. F. Gales and S. J. Young, “Cepstral parameter compensation for hmm recognition
[4] Liang-Che Sun and Lin-Shan Lee, “Modulation spectrum equalization for improved

延伸閱讀