透過您的圖書館登入
IP:3.145.173.112
  • 學位論文

使用基於樹狀分類器之串接式聲學模型之中文大字彙語音辨識

Tandem System with Tree-Based Classifiers for Mandarin LVCSR

指導教授 : 李琳山

摘要


近年來由於機器學習(machine learning)的蓬勃發展,有越來越多語音相關的研究開始使用各式各樣該領域的新技術與新模型。其中有一群人的作法是維持傳統聲學模型常用的隱馬可夫模型(hidden Markov model, HMM)的架構來處理語音訊號在相近時間上的相依性,再加入其他機器學習裡的分類器作為輔助。他們的方法可概括分為混合式(hybrid)聲學模型及串接式(tandem)聲學模型。 本論文嘗詴使用一些樹狀分類器的集成(ensemble)來取代串接式聲學模型中常用的多層感知器(multi-layer perceptron, MLP),並為了配合隱馬可夫模型中高斯混合模型(Gaussian mixture model, GMM)的使用,引入模糊理論(fuzzy theory)的想法來得到連續的事後機率向量分布。本論文所使用的前端分類器有模糊隨機森林(fuzzy random forest, FRF)與以模糊決策樹(fuzzy decision tree, FDT)為基底學習器的AdaBoost.M2,並提出幾個降低計算複雜度的方法與分類錯誤最小化訓練的改進。實驗結果顯示,雖然進步量比不上常用的多層感知器,本論文提出的作法還是優於傳統的聲學模型。最後分析串接式聲學模型的有效條件並舉實驗結果加以驗證,再依分析結果選取適當參數重新訓練前端分類器,進一步提升字元正確率;相對於傳統聲學模型的字元錯誤率,可以得到8.56%的相對進步率。

並列摘要


參考文獻


[1] H. Bourlard, N. Morgan, “Connectioinist speech recognition: A hybrid approach,” in Kluwer Academic Publishers, Boston, 1994
[2] Edmondo Trentin and Marco Gori, “A survey of hybrid ANN/HMM models for acoustic speech recognition,” in Neurocomputing Vol. 37, No. 1, pp.91-126, 2001
[3] H. Hermansky, D.P.W. Ellis, S. Sharma, “Tandem connectionist feature extraction for conventional HMM systems,” in Proc. ICASSP 2000
[4] Huda Mohammad Nural, Muhammad Ghulam, Junsei Horikawa and Tsuneo Nitta, “Distinctive phonetic feature (DPF) based phone segmentation using hybrid neural networks,” in Proc. Interspeech 2007
[5] Jitendra Ajmera and Masami Akamine, “Speech recognition using soft decision trees,” in Proc. Interspeech 2008

延伸閱讀