透過您的圖書館登入
IP:216.73.216.60
  • 學位論文

使用長時域特徵參數的串接式辨識系統

Tandem Recognition System based on Long-term Acoustic Features

指導教授 : 李琳山

摘要


語音辨識中梅爾倒頻譜特徵參數一直占有相當大的地位,但是傳統使用梅爾倒頻譜特徵參數和隱藏式馬可夫模型的辨識系功能仍未能完全符合使用者的期待,因此在本文中我們探討了引入新的特徵參數及新的分類系統的串接式系統。 在特徵參數的抽取中,我們選擇將梅爾倒頻譜特徵參數各個維度分開處理,取出一段長時間內的特徵參數作為新的時間樣式特徵參數,由實驗結果發現,這樣的特徵參數經兩次的多層次感知器訓練後,可達94.4%的音框正確率,而將多層次感知器所輸出的事後機率與原先的特徵參數結合後,詞正確率由原先單用梅爾倒頻譜特徵參數的92.9%進步到93.23%,顯示這樣的方法的確有提升語音辨識系統的效果。同時我們也發現這樣的特徵參數與梅爾倒頻譜特徵參數結合後必須做主成分分析才能得到更好的辨識率,顯示經多層次感知器處理過後的特徵參數與原先的梅爾倒頻譜特徵參數仍然有一定程度的相關。 我們比較了使用不同的訓練目標來訓練多層次感知器,發現當訓練目標集合數過少時,多層次感知器無法正確地學習到該集合的特徵,反之,當多層次感知器的訓練目標集合多時,多層次感知器能夠正確地學習到該集合的特徵。 此外,對於解讀多層次感知器所輸出的事後機率結果,我們也做了詳細的分析。我們發現,多層次感知器所輸出的事後機率彼此之間差異越大,作為隱藏式馬可夫模型辨識時可以得到較高的辨識率,反之當多層次感知器所輸出的事後機率很平均的時候,隱藏式馬可夫模型辨識便無法得到好的結果。另外,在使用一個多層次感知器訓練數個多層次感知器所輸出的事後機率時,第一層多層次感知器所輸出的音框正確率平均值是不重要的,反而是第一層多層次感知器中,具有最高音框辨識率的多層次感知器是最重要的,在後端能不能有更好的效果,端看前端的多層次感知器最高的音框正確率是否夠高。

並列摘要


無資料

參考文獻


[8] 蔡尚年,”以同步式分佈等化法為基礎的強健性語音特徵前端處理技術”,台灣大學碩士論文,2004
[1] H. Hermansky, TRAP-TANDEM Data-driven extraction of temporal features from speech,IEEE.,2003
[2] R. Vergin, D. O'Shaughnessy, “Pre-Emphasis and Speech Recognition,” Electrical and Computer Engineering, Canada, 5-8 Sep, 1995
[3] H. Hermansky, "Perceptual linear predictive (PLP) analysis of speech", J. Acoust. Soc. Am., vol. 87, no. 4, pp. 1738-1752, Apr. 1990
[4] J. Makhoul. Linear prediction: A tutorial review. Proceedings of the IEEE, 63 (5):561–580, April 1975

被引用紀錄


張智傑(2014)。多種語音特徵的合併及其在智慧型手機上之應用〔碩士論文,國立中央大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0031-0412201511582064

延伸閱讀