基於變數選取聲學模型調適法之強健式語音辨識

聲學模型調適是改善聲學環境不匹配問題，增進語音辨識系統效能的一個重要方向。仿射轉換方法(affine transformation) ，如最大相似度線性回歸(Maximum Likelihood Linear Regression, MLLR) ，在一般的聲學模型調適任務中有很好的效果。然而在缺乏調適語料及正確轉寫(transcription) 的自我調適情境(self adaptation)下，一般的仿射轉換調適方法容易造成過度貼合(over-fitting)問題。為此，本論文利用變數選取(variable selection) 的技術，提出兩種方法: 變數選取-最大相似度線性回歸(Variable Selection MLLR, VSMLLR) 以及變數選取-特徵最大相似度線性回歸(Variable Selection feature MLLR, VSfMLLR)。這兩種方法先以一些事前知識建構變數子集，再基於各變數子集以最大相似度準則求出對應的仿射轉換矩陣，最後利用正則化訓練準則(regularization criterion) 當作子集與其對應仿射轉換的評量分數。利用此方法，我們可以在系統上線時，即時為每句測試語料找出適合的變數子集、有效控制調適參數的複雜度、克服過度貼合問題並使辨識率進步。當這些方法實做在Aurora-4語料庫上時，可發現測試集的辨識率較基本系統有顯著的進步。並勝過了一般常見的仿射轉換調適法，以及各種正則化訓練準則的延伸。相較於基本系統的77.47%字正確率，在沒有額外的調適語料的條件下，變數選取-最大相似度線性回歸以及變數選取-特徵最大相似度線性回歸分別將字正確率提升至80.10%與81.15%，相對進步率分別為11.67%以及16.33%。

關鍵字

聲學模型調適；仿射轉換；變數選取

並列摘要

無資料

並列關鍵字

Acoustic Model Adaptation ； Affine Transformation ； Variable Selection

參考文獻

[1] “DSP history - understanding speech: An interview with john makhoul,” IEEE

Signal Processing Magazine, pp. 76–79.

[2] Douglas O’Shaughnessy, “Invited paper: Automatic speech recognition: History,

[3] M. J. F. Gales and S. J. Young, “Cepstral parameter compensation for hmm recognition

[4] Liang-Che Sun and Lin-Shan Lee, “Modulation spectrum equalization for improved

國際替代計量

基於變數選取聲學模型調適法之強健式語音辨識

主題瀏覽