透過您的圖書館登入
IP:3.17.203.68
  • 學位論文

同時學習音素模型及無標註聲學組型之HMM狀態之語者調適

Speaker Adaptation by Joint Learning the HMM states of Phoneme Models and Acoustic Tokens Discovered without Annotations

指導教授 : 李琳山

摘要


在語音辨識中,以深層類神經網路 (deep neural network, DNN) 來建構聲學模型 (acoustic model, AM) 的作法已成為主流。但在訓練深層類神經網路時,學習率的調整常是必須且最花時間的步驟。本論文以英文的評效語料 (benchmark corpus) 詳細測試兩種隨著訓練過程中錯誤表面 (error surface) 的變化自動調適學習率的方法:調適次梯度法 (adaptive subgradient method, AdaGrad) 及其結合滑動窗後的改進版本 (AdaDelta)。實驗結果顯示這兩種方法確能減少對學習率的倚賴並加速訓練,其中又以調適次梯度法更為適合快速實驗的情境。 另一方面,在個人化語音辨識的情境下,今日個人化的語料已經相當的豐富,但其中大都沒有人工標註的文字轉寫,所以本文也探討了在深層類神經網路的聲學模型架構中,利用將人工標註的音素及以非監督式 (unsupervised) 方式自動產生的聲學組型共用類神經網路的隱藏層的方法,以非監督式聲學組型的隱藏式馬可夫模型 (Hidden Markov Model, HMM) 狀態作為另一組訓練目標,協助我們利用大量沒有文字轉寫的語料來進行語者調適 (speaker adaptation) 。在參照 Facebook 個人動態 (status) 錄製成的中英雙語 (bilingual) 語料的實驗中,我們證實這個方法是有效的,尤其在含文字轉寫的語料量越少時,幫助越明顯。 此外,我們也實作了一套透過圖形處理器 (graphics processing unit, GPU) 加速,並實作任意有向無環圖結構及遞迴式的深層類神經網路函數庫及工具。

參考文獻


[27] “教育部重編國語辭典修訂本,” .
[56] 周伯威, “以深層與卷積類神經網路建構聲學模型之大字彙連續語音辨識,” 2015.
[1] Ra´ul Rojas, Neural networks: a systematic introduction, Springer Science & Business Media, 1996.
[3] Lori Lamel, Jean-Luc Gauvain, and Gilles Adda, “Lightly supervised and unsupervised acoustic model training,” Computer Speech & Language, vol. 16, no. 1, pp. 115–129, 2002.
[5] Lawrence Rabiner, “A tutorial on hidden markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.

延伸閱讀