透過您的圖書館登入
IP:3.12.154.27
  • 學位論文

以同步式分佈等化法為基礎的強健性語音特徵前端處理技術

Robust Speech Feature Front-End Processing Techniques Based on Progressive Histogram Equalization

指導教授 : 李琳山

摘要


為了使語音成為隨時隨地都可以使用的人機介面,探討如何減低環境不匹配對辨識率影響的強健性研究,便成為一個很重要的研究方向,本論文即是藉由前端對辨識參數的處理來提升對聲學環境改變的強健性。 本論文提出了一種新的特徵參數正規化的方法:同步式分佈等化法,它能夠把受到雜訊特性影響的時變特徵參數分布轉換到一個固定不受聲學環境改變的參考分布。 這種方法考慮到雜訊特性並不穩定的特性,將分佈等化法之參考區間縮短,並讓參考區間隨著特徵參數同步移動;在AURORA2乾淨語音訓練模式下,若選用梅爾倒頻譜係數作為特徵參數,對各種雜訊及各種訊噪比進行平均,則使用同步式分佈等化法前後的詞正確率分別是61.08%和82.61%;若是以時域頻域主成分特徵參數作為特徵參數,其辨識率更是由49.54%進步到82.11%。除了辨識率的提升,由於同步式分佈等化法所需的延遲時間較短,因此更適合與有及時性需求的應用結合。此外,我們提出了降低它計算複雜度的方法,以提高其實際應用性;並觀察了雜訊性質及理想參考區間長度間的關係。 我們亦發現到兩階式維納濾波器、訊噪比相關波形處理法及多特性向量時間濾波器等既有的強健性處理法和同步式分佈等化法間有很好的加成性,將它們整合可成為一套具有高度強健性的前端處理流程。單獨使用兩階式維納濾波器或是再加上訊噪比相關波形處理法,對於加成性雜訊有很好的效果,但在通道特性改變時,辨識率仍有進步空間。在把同步式分佈等化法和這兩種前端處理整合之後,通道特性對辨識率的影響便大幅降低。進一步加入多特性向量時間濾波器技術後,各種雜訊的平均辨識率大致是進步的,尤其在低訊噪比時,提升最為顯著。結合前述各種方法的前端處理流程,和歐洲電信標準協會最近提出的進階前端處理相較,它不僅在加成性雜訊和通道特性改變這兩種環境不匹配同時存在的情況下有較好的效能;當訊噪比較低,環境不匹配較嚴重的情況下,也有著較高的辨識率。 雖然前人的實驗顯示,時域頻域主成分特徵參數在訓練及測試聲學環境匹配的條件下,表現比梅爾倒頻譜係數好;但我們觀察到當它單獨使用時,不太有強健性。然而在加上同步式分佈等化法之後,它和梅爾倒頻譜係數平均的效能就相當接近了,大致說來,環境不匹配較嚴重時,梅爾倒頻譜係數展現較佳的強健性;但在其他情形下,則以時域頻域主成分特徵參數的辨識率較高。

並列摘要


參考文獻


[1] L.-s. Lee and Y. Lee, “Voice Access of Global Information for Broad-band Wireless: Technologies of Today and Challenges of Tomorrow”, Proceedings of the IEEE, Jan 2001.
[2] Y. Gong, “Speech Recognition in Noisy Environments: A Survey”, Speech Communication. 16, 1995.
[3] A. E. Rosenberg, C.-H. Lee, and F. K. Soong, “Cepstral Channel Normalization Techniques for HMM-based Speaker Verification”, ICSLP, 1992.
[5] F. Hilger and H. Ney, “Quantile Based Histogram Equalization for Noise Robust Speech Recognition,” Eurospeech, 2001.
[6] Á. de la Torre, J. C. Segura, C. Benítez, A. M. Peinado, and A. J. Rubio, “Non-linear Transformations of the Feature Space for Robust Speech Recognition”, ICASSP, 2002.

被引用紀錄


曾靖騰(2006)。分群式倒頻譜參數正規化與蒙地卡羅強健性語音模型估測〔碩士論文,國立臺北科技大學〕。華藝線上圖書館。https://doi.org/10.6841/NTUT.2006.00389
朱斯詠(2008)。使用長時域特徵參數的串接式辨識系統〔碩士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2008.02841
朱忠玲(2007)。大字彙中文連續語音辨識之聲學模型及特徵正規化〔碩士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2007.01136

延伸閱讀