以深層與卷積類神經網路建構聲學模型之大字彙連續語音辨識

在語音辨識中，以深層類神經網路 (deep neural network, DNN) 取代傳統的高斯混合模型 (Gaussian mixture model, GMM) 來建構聲學模型 (acoustic model, AM) 的作法，因其優異的表現已逐漸成為主流。在本論文中，我們以深層類神經網路及卷積類神經網路 (convolutional neural network, CNN) 來產生隱藏式馬可夫模型 (hidden Markov model, HMM) 所需的狀態 (state) 機率，發展出大字彙連續語音辨識 (large-vocabulary continuous speech recognition, LVCSR) 中的聲學模型，在英文的評效語料 (benchmark corpus) 上進行了一系列的實驗。實驗結果顯示不論是深層類神經網路還是卷積類神經網路，其辨識準確率均能大幅地超越傳統基於高斯混合模型的作法，而其中又以深層類神經網路的表現最為出色。由於不同語者的語音永遠是不一樣的，本文也探討了如何在深層類神經網路的聲學模型架構上，執行語者調適 (speaker adaptation) 以解決受測目標語者 (target speaker) 的語音與訓練語料 (training corpus) 之間不匹配 (mismatch) 的問題。透過對特徵空間上鑑別式線性迴歸 (feature-space discriminative linear regression, fDLR) 的改進，我們提出了一套將隱藏式馬可夫模型的狀態分群 (state-clustered) 的作法，更精細地考慮隱藏式馬可夫模型中各狀態不同的聲學結構，分群進行調適，並透過兩階段的方式進行辨識，提升目標語者的辨識準確度。在一系列的以 Facebook 個人動態 (status) 錄製而成的中英雙語 (bilingual) 語料的實驗中，可以發現不論是少量或是大量的調適語料，運用此方法建立的個人化 (personalized) 聲學模型皆能有相當良好的表現。此外，我們也實作了一套透過圖形處理器 (graphics processing unit, GPU) 加速的深層類神經網路函式庫。文中除了介紹基本的使用說明以外，也詳細地記載了該程式的軟體架構與設計原理，並探討了圖形處理器上幾個重要的實作細節。

關鍵字

語音辨識；大字彙連續語音辨識；類神經網路；深層類神經網路

並列摘要

無資料

並列關鍵字

Speech Recognition ； Large Vocabulary Continuous Speech Recognition ； Artificial Neural Network ； Deep Neural Network

參考文獻

[2] Yann LeCun, L ́eon Bottou, Yoshua Bengio, and Patrick Haffner, “Gradient-based learning applied to document recognition,” Proceedings of the IEEE, vol. 86, no. 11, pp. 2278–2324, 1998.

[4] Lawrence Rabiner, “A tutorial on hidden markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.

[6] Janet Baker, Li Deng, James Glass, Sanjeev Khudanpur, Chin-Hui Lee, Nelson Morgan, and Douglas O’Shaughnessy, “Developments and directions in speech recognition and understanding, part 1 [dsp education],” Signal Processing Magazine, IEEE, vol. 26, no. 3, pp. 75–80, 2009.

[7] B-H Juang, “Maximum-likelihood estimation for mixture multivariate stochastic observations of markov chains,” AT&T technical journal, vol. 64, no. 6, pp. 1235– 1249, 1985.

[8] Richard P Lippmann, “An introduction to computing with neural nets,” ASSP Magazine, IEEE, vol. 4, no. 2, pp. 4–22, 1987.

被引用紀錄

魏誠寬（2015）。同時學習音素模型及無標註聲學組型之HMM狀態之語者調適〔碩士論文，國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2015.00975

國際替代計量

以深層與卷積類神經網路建構聲學模型之大字彙連續語音辨識

主題瀏覽