強健可調之分散式語音辨識中以分佈統計為基礎的量化法與綜合不確定性解碼技術

架構於無線網路上的分散式語音辨識系統（Distributed Speech Recognition，DSR），將傳統的語音辨識分散在手持設備與伺服器兩端：在手持設備執行語音特徵參數的抽取與壓縮，並將壓縮後的資料經過無線通道傳送至伺服器端，以進行特徵參數的還原與辨識。由於隨身攜帶的手持設備面臨多變且無可預知的環境，環境雜訊與壓縮帶來的信號失真會互相加成起來，嚴重影響分散式語音辨識的效能。本論文針對聲學模型與量化碼本的訓練語音取得環境和實際進行語音辨識環境不匹配的問題，提出一套強健性的量化法，適用於個人化(personalized)與情境感知(context-aware)的系統，可以根據使用者手持設備的計算能力與頻寬限制，以及所處環境的背景訊噪比不同，動態調整位元率，使得辨識系統效能最佳化。論文內容分為兩大部分：「以分佈統計為基礎的強健性量化法」與「以量化失真與分佈偏移為基礎的綜合不確定性解碼法」。第一部份為本論文新提出的「以分佈統計為基礎的強健性量化法」，此方法是根據最接近所要量化係數的前面一段區間的序統計資訊(order-statistics)或分佈統計資訊(histogram)，動態調整其量化位準，其優點包括:（一）可使量化碼本自動跟隨輸入語料分佈的變化，解決了傳統以距離為基礎的量化因固定碼本的限制下，量化碼字無法有效表示帶有不同雜訊的語音的問題，而動態的量化區間也使得量化本身較不受不同語者特性所影響；（二）量化法本身具有強健的特性，部分的環境干擾可以被量化法吸收掉，實驗結果顯示對低訊噪比環境與不穩定性的雜訊也可有效處理；(三)完全不需要事先訓練好的碼本，可以很容易地調整傳輸位元數，適應無線環境下時變通道的特性；(四)不需要距離的計算，可以簡單地發展成更高維的向量量化，進一步降低傳輸的資料量。在AURORA 2.0測試環境中，乾淨語音訓練模式下，對各種雜訊與各訊噪比的平均，使用本論文提出的強健性量化法在2.7kbps位元率下可得82.08%正確率，相對於由傳統分割式向量量化法在4.4kbps下的56.51%、前人提出的二維離散餘弦轉換的特徵參數壓縮法在1.45kbps下的59.89%、及未量化的的原始梅爾倒頻譜係數的61.08%，都有大幅的進步(相對進步率各為58%、55%、54%)。在第二部份，本論文提出「以量化失真與分佈偏移為基礎的綜合不確定性解碼」，在完全不需要增加額外資料傳輸量的情況下，能夠估測在量化失真和雜訊環境下語音特徵參數的兩種不確定性，在辨識器解碼的過程中一併考慮。實驗結果顯示，前人所提出的根據量化不確定性的解碼法，衍伸叢集資訊向量量化(Extended Cluster Information Vector Quantization ECIVQ)，的辨識率為57.19%，而本篇論文提出的綜合不確定性解碼，辨識率可以進一步提升為83.1%。

關鍵字

量化；不確定性解碼；強健

並列摘要

無資料

並列關鍵字

quantization ； uncertainty decoding ； robust

參考文獻

[35] 許偉皓，“分散式語音辨識系統之進一步技術：特徵壓縮、外加傳輸制及整體系統模擬”，台灣大學碩士論文，2004。

[24] H. Hermansky and N. Morgan, “RASTA Processing of Speech”. IEEE Trans. onSpeech and Audio Processing. 2, pp. 578-589, 1994

[1] Kuldip K., Paliwal and Stephen So, “Scalable Distributed Speech Recognition Using Multi-Frame GMM-Based Block Quantization”, ICASSP 2004

[2] H.K. Kim and R.V. Cox, “A bitstream-based front-end for wireless speech recognition on IS-136 communications system”, IEEE Trans. Speech Audio Processing, Vol. 9, No. 5,pp. 558–568, July 2001.

[3] B. Raj, J. Migdal and R. Singh, “Distributed speech recognition with codec parameters”, in Proc. ASRU, rento, Italy,Dec. 2001.

國際替代計量

強健可調之分散式語音辨識中以分佈統計為基礎的量化法與綜合不確定性解碼技術

全文下載

主題瀏覽