未知語者聲道長度正規化之快速計算方法

為了減少語者間的聲學差異性，聲道長度正規化 (VTLN)是一個常見的解決方式。此辦法的重點在於如何找出每個語者適合的伸縮因子 (warping factor)，一般情況下都使用完全搜尋法對每一個做測試，但是這會耗費大量的計算時間使得實用性下降。針對以上問題，本論文提出了兩種加速的方法。一種是常被用在搜尋單峰函數極值的黃金比例搜尋法，此方法能夠快速有效地縮小搜尋範圍，逼近理想的伸縮因子。另外一種這邊稱作二次曲線擬合法，藉由觀察出伸縮因子與模型對數機率值之間存在著一近似二次曲線的情形，利用此現象，我們用三點就可以找出該曲線並將極值發生位置當作答案。實驗結果顯示，本論文提出的二次曲線擬合法對完全搜尋法的效能評估時間減少率最多，為76.5%，而且雖然與基礎聲學模型比較上整句辨識正確率相同，但自由拍解碼 (free mora decoding)的準確率提升了0.73%。整體表現上黃金比例搜尋法表現最好，跟基礎聲學模型相比，整句辨識的正確率提升了0.05%，自由拍解碼 (free mora decoding)的準確率提升了0.95%，都和作為上限的完全搜尋法結果相同，而且效能評估時間也減少了60.8%。

關鍵字

聲道長度正規化

並列摘要

無資料

並列關鍵字

VTLN ； warping factor estimation

參考文獻

【1】 D.Giuliani , M.Gerosa, F. Brugnara, “Improved automatic speech recognition through speaker normalization”

【3】 Li Lee, “A Frequency Warping Approach to Speaker Normalization”, IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, VOL. 6, NO. 1, JANUARY 1998

【4】 Titze, I.R., Principles of Voice Production, Prentice Hall, 1994

【5】 J.Wong, “Implementation of Vocal Tract Length Normalization for Phoneme Recognition on TIMIT Speech Corpus”, ICICM, 2011

【6】 L. Lee and R. C. Rose, “Speaker normalization using efficient frequency warping procedures,” in Proc. IEEE ICASSP-96, vol. 1, Atlanta, GA, May 1996, pp. 353–356

國際替代計量

未知語者聲道長度正規化之快速計算方法

全文下載

主題瀏覽