使用空間-時間之特徵分布資訊於強健性語音辨識之研究

統計圖等化法(Histogram Equalization, HEQ)是一種概念簡單且有效的語音強健技術。在傳統的做法中，語音特徵向量的各個維度特徵值是獨立進行正規化。換言之，大部份方法都只個別考慮每一維度特徵值與其相對應分布之統計資訊進行正規化。不僅如此，不同的統計圖等化法有各自較顯著的缺點。例如查表式統計圖等化法(Table-Lookup Histogram Equalization, THEQ)相較於分位差統計圖等化法(Quantile-Based Histogram Equalization, QHEQ)，其耗費較大的記憶體空間；分位差統計圖等化法則需較大的處理器計算量。在本文吾人首先探討語音訊號與強健式語音訊號在空間與時間上之特徵分布關係，並利用該關係提出了空間與時間之特徵分布統計圖等化法(Spatial-Temporal Distribution Characteristics Histogram Equalization, STHEQ)，降低不同的聲學環境所產生的偏差(Mismatch)。並且嘗試消除傳統統計圖等化法無法處理的問題，即雜訊的隨機特性(Random Behavior)對語音所產生的影響。此外，相較於前述二個傳統方法，空間與時間之特徵分布統計圖等化法所耗費之記憶體空間與處理器計算量皆顯著地下降。再者，以結合空間與時間之特徵分布資訊(Joint Spatial-Temporal Distribution Information, JSTDI)為基礎，吾人提出一個更廣泛的(General)語音特徵正規化架構，稱之為以空間與時間之特徵分布為基礎之正規化架構(Spatial-Temporal Distribution-Based Normalization Framework, STDNF)。此架構不僅能有效地結合不同正規化法，更能利用不同的空間轉換函數之求解法則來增進語音特徵參數正規化之功效。本論文之語音辨識實驗以Aurora-2語料庫為研究題材，實驗結果顯示在乾淨語料訓練模式下，吾人所提出的方法相較於基礎實驗結果，能顯著地降低字錯誤率，並且成效也較其它傳統語音強健方法來的好。

關鍵字

強健式語音辨識；統計圖等化法

參考文獻

[Atal 1974] B. S. Atal (1974), “Effectiveness of Linear Prediction Characteristics of The Speech Wave for Automatic Speaker Identification and Verification,” J. Acoust. Soc. Am. 55(6):1304-1312, (1974)

[Abolhassani et al. 2007] A. H. Abolhassani et al. (2007), “Speech Enhancement Using Pca and Variance of the Reconstruction Error in Distributed Speech Recognition, “ in Proc. Asru 2007.

[Beyerlein et al. 2002] P. Beyerlein et al. (2002), "Large Vocabulary Continuous Speech Recognition of Broadcast News - The Philips/RWTH Approach," Speech Communication. 37: pp. 109-131, 2002.

[Benesty et al. 2008] Jacob Benesty et al., (2008) “Springer Handbook of Speech Processing,” part E, 33.3, 2008.

[Boll 1979] S.F. Boll (1979), "Supperssion of Acoutstic Noise in Speech Using Spectral Subtraction," IEEE Transactions on Acoustics, Speech, and Signal Processing. 27(2): pp. 113-120, April, 1979.

國際替代計量

使用空間-時間之特徵分布資訊於強健性語音辨識之研究

主題瀏覽