強健性語音辨識中處理感知線性預測參數與梅爾倒頻譜係數之進一步方法

為了使語音辨識成為隨時隨地都可以使用的人機介面，探討如何提高其強健性，減低環境不匹配對辨識率的影響，便成為一個很重要的研究方向。本論文即是藉由前端對辨識參數的處理來提升對聲學環境改變的強健性。本論文以兩種最為主流的特徵參數，亦即梅爾倒頻譜係數（Mel Frequency Cepstrum coefficient，MFCC）與感知線性預測參數（Perceptual Linear Prediction）為對象，分別結合各種強健性處理的技術，並討論將來兩種特徵參數整合的可能性。實驗結果顯示，在未曾結合任何強健性處理時，感知線性預測參數的效果要比梅爾倒頻譜係數要好，在乾淨語音訓練模式下，對所有的測試條件做平均之後，感知線性預測參數基礎實驗的正確率為63.38%，而梅爾倒頻譜係數僅為60.3%，但結合強健性處理之後，兩者便介於伯仲之間。若嚐試將各種強健性的方法以串接的方式結合，那麼就會發現僅有某些結合有加成性，而大部分都是沒有的。本論文並仔細測試出兩種有加成性的組合方式，分別是將特徵參數向量正規化之後再結合多特性向量時域濾波器，以及兩階式維納濾波器結合訊噪比相關波形處理法及盲目等化法，後者事實上與ETSI所提出的進階式前端處理（Advance Front End）[24]的差異僅是本論文同時測試了使用梅爾倒頻譜係數及感知線性預測參數的狀況，然後比較了兩者的差異。本論文最後進一步嚐試用各種不同的方式去整合兩種不同的特徵參數，希望利用兩者間互補的資訊得到比兩者任一都要好的結果。實驗結果顯示，整合後的確可獲得較佳的結果。

關鍵字

梅爾倒頻譜係數；桿之線性預測參數；強健性

並列摘要

無資料

並列關鍵字

MFCC ； PLP ； Robustness

參考文獻

[1] L.-s. Lee and Y. Lee, “Voice Access of Global Information for Broad-band Wireless:Technologies of Today and Challenges of Tomorrow”, Proceedings of the IEEE, Jan 2001.

[2] Y. Gong, “Speech Recognition in Noisy Environment:A Survey” , Speech Communication. 16, 1995.

[6] C. Avendano, S. v. Vuuren, and H. Hermansky, “Data Based Filter Design for RASTA-like Channel Normalization for ASR” , ICASSP, 1996.

[7] J. –w. Huang, et al “Comparative Analysis for Data-Driven Temporal Filters Obtained via Principal Component Analysis (PCA) and Linear Discriminant Analysis (LDA) in Speech Recognition” , Eurospeech 2001.

[8] M.J.F. Gales , ”Model-based Techniques for Noise Robust Speech Recognition” , University of Cambridge, Sep. 1995.

被引用紀錄

朱斯詠（2008）。使用長時域特徵參數的串接式辨識系統〔碩士論文，國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2008.02841

國際替代計量

強健性語音辨識中處理感知線性預測參數與梅爾倒頻譜係數之進一步方法

全文下載

主題瀏覽