基於語料庫及辭典精緻化之中文語言模型強化之研究

在語音辨識的研究中，使用一個對目標語料的語句有良好估測能力的語言模型，可以有效地提高語音辨識效能。因此各語音辨識系統相關的研究中，語言模型的部分向來是辨識系統中最核心的部分之一。在各式各樣的語言模型中，N連統計式語言模型是使用在語音辨識系統中，最為有效且成左漱@種模型。然而N連語言模型受到其訓練或調適所使用之文字語料的影響甚鉅，因此語料庫精緻化就成為語音辨識之語言模型研究中很重要的課題之一。此外，語音辨識的語言模型中，另一個重要的議題就是辭典的取得，這個問題在中文語言處理中更顯得重要，由於中文的詞與詞之間沒有明確的分隔，因此中文抽詞、斷詞問題向來也是研究的重點之一。故本論文中主要內容將分成語料庫精緻化、辭典精緻化、以及如何將這些技術整合使用在實際的問題上，以強化語言模型並得到更好的辨識效能。語料庫精緻化，對於N連語言模型使用在辨識系統中的效能有極大的影響。本論文中首先討論兩種重大的目標語料與訓練語料的不匹配性問題，接著討論如何取得適當的訓練語料庫，本文中先提出兩種來源的語料庫 --- 既有語料庫及衍生語料庫，其中既有語料庫指的是現存容易取得的、和目標語料有較高相關性的語料庫，而衍生語料庫指的則是以基礎轉寫結果為基礎，建構適當的查詢指令，從網際網路收集得到的語料庫。在處理廣播新聞語料的實驗中，由於高品質的既有語料庫(大量匹配性高的文字新聞語料)很容易取得，因此使用既有語料庫的辨識效能很明顯勝過使用衍生語料庫時的效能。然而，針對其他不容易取得既有語料庫的應用領域，衍生語料庫是相當重要的。另外，針對衍生語料庫中使用的查詢指令之建構，本論文提出兩種建構法 --- 分離式三連詞查詢指令建構法、相連式高信心量度查詢指令建構法。由實驗結果所得到的結論為：使用相連式高信箱連度查詢指令建構法時，可取得量較小但品質較好的衍生語料庫。辭典精緻化，在中文語言模型中佔有很重要的地位。本論文中首先討論傳統詞的定義，並討論使用在語音辨識應用中的詞的統計式定義，包括一個好的詞必須要高的內聚力，並且其左右文相依性必須要低（亦即有良好的左右詞邊界）。接著本文中分別就兩種不同的抽詞法 --- 派樹抽詞法、及迭代式組合式抽詞法，進行討論。再者，由於統計式抽詞法中，其演算法中使用的參數調整是一個重要的問題，因此在本論文中分別針對詞邊界量度的相異左/右相連詞個數門檻值、及最高特定左/右相連詞比例門檻值，還有內聚力量度的重疊子片段樣式之關聯基準量、及相鄰詞內聚力量度進行實驗及討論。由實驗的結果證明，在為了語音辨識的目的抽詞時，在詞邊界量度中的最高特定左/右相連詞比例門檻值事實上是應該被捨棄的。此外，實驗結果也顯示，迭代式組合式抽詞法的效能勝過於派樹抽詞法。推測其原因，是因為迭代式組合式抽詞法是從一初始辭典開始成長，因此不但具有統計式的長處，同時也善用了初始辭典所蘊含的詞的知識。最後，本論文將各種語言模型強化的技術，整合使用在解決兩個實際的語音辨識問題 --- 廣播新聞語料及訪談語料。由於這兩組目標語料的特性迥異，因此在語料庫的取得及精緻化、辭典的精緻化等問題上，會遭遇到不同的問題。本論文藉著將語言模型強化使用在此兩種目標語料上的實驗，來討論先前提過各種方法的效能。實驗的結果，說明了對於廣播新聞語料來說，由於其既有語料庫容易取得，因此採用既有語料庫，加上分群分類架構並搭配上辭典精緻化，便可得到相當好的辨識率的進步率。但在訪談語料的實驗中，可以發現其不匹配性高，且既有語料庫的取得困難，因此具有比較大的挑戰，本論文中亦作了一些初步的嘗試，使得其辨識效能有些釭獐W進。

關鍵字

語言模型；語音辨識；辭典；語料庫

並列摘要

無資料

並列關鍵字

Corpus ； Speech Recognition ； Language Modeling ； Lexicon

參考文獻

[1] R. Rosenfeld, "Two decades of statistical language modeling: Where do we go from here?," in Proceedings of the IEEE, November 7 2000.

[2] J. R. Bellegarda, "Statistical language model adaptation: review and perspectives," Speech Communication, vol. 42, pp. 93{108, December 2 2004.

[3] R. Lau, R. Rosenfeld, and S. Roukos, "Trigger-based language models: A maximum entropy approach," in ICASSP, December 4 1993.

[4] M. Federico, "Bayesian estimation methods for n-gram language model adaptation," in Proc. ICSLP, (Philadelphia PA), pp. 240{243, 1996.

[6] T. Moriya, K. Hirose, N. Minematsu, and H. Jiang, "Enhanced MAP adaptaiton of n-gram language models using indirect correlation of distant words," in Proc. ASRU, (Italy), December 2001.

國際替代計量

基於語料庫及辭典精緻化之中文語言模型強化之研究

全文下載

主題瀏覽