使用基於樹狀分類器之串接式聲學模型之中文大字彙語音辨識

近年來由於機器學習(machine learning)的蓬勃發展，有越來越多語音相關的研究開始使用各式各樣該領域的新技術與新模型。其中有一群人的作法是維持傳統聲學模型常用的隱馬可夫模型(hidden Markov model, HMM)的架構來處理語音訊號在相近時間上的相依性，再加入其他機器學習裡的分類器作為輔助。他們的方法可概括分為混合式(hybrid)聲學模型及串接式(tandem)聲學模型。本論文嘗詴使用一些樹狀分類器的集成(ensemble)來取代串接式聲學模型中常用的多層感知器(multi-layer perceptron, MLP)，並為了配合隱馬可夫模型中高斯混合模型(Gaussian mixture model, GMM)的使用，引入模糊理論(fuzzy theory)的想法來得到連續的事後機率向量分布。本論文所使用的前端分類器有模糊隨機森林(fuzzy random forest, FRF)與以模糊決策樹(fuzzy decision tree, FDT)為基底學習器的AdaBoost.M2，並提出幾個降低計算複雜度的方法與分類錯誤最小化訓練的改進。實驗結果顯示，雖然進步量比不上常用的多層感知器，本論文提出的作法還是優於傳統的聲學模型。最後分析串接式聲學模型的有效條件並舉實驗結果加以驗證，再依分析結果選取適當參數重新訓練前端分類器，進一步提升字元正確率；相對於傳統聲學模型的字元錯誤率，可以得到8.56%的相對進步率。

關鍵字

中文大字彙語音辨識；串接式聲學模型；模糊決策樹；模糊隨機森林； AdaBoost

並列摘要

無資料

並列關鍵字

Mandarin LVCSR ； tandem system ； fuzzy decision tree ； fuzzy random forest ； AdaBoost

參考文獻

[1] H. Bourlard, N. Morgan, “Connectioinist speech recognition: A hybrid approach,” in Kluwer Academic Publishers, Boston, 1994

[2] Edmondo Trentin and Marco Gori, “A survey of hybrid ANN/HMM models for acoustic speech recognition,” in Neurocomputing Vol. 37, No. 1, pp.91-126, 2001

[3] H. Hermansky, D.P.W. Ellis, S. Sharma, “Tandem connectionist feature extraction for conventional HMM systems,” in Proc. ICASSP 2000

[4] Huda Mohammad Nural, Muhammad Ghulam, Junsei Horikawa and Tsuneo Nitta, “Distinctive phonetic feature (DPF) based phone segmentation using hybrid neural networks,” in Proc. Interspeech 2007

[5] Jitendra Ajmera and Masami Akamine, “Speech recognition using soft decision trees,” in Proc. Interspeech 2008

國際替代計量

使用基於樹狀分類器之串接式聲學模型之中文大字彙語音辨識

全文下載

主題瀏覽