中英雙語環境下使用詞群及隨機森林的語言模型調適

語言模型在語音辨識中一向扮演著極為重要角色，然而自然語言的語法千變萬化，隨著國際化的風潮，人們日常生活中的語言也由單語轉向雙語或多語，於是雙語混合的語言模型變成一個迫切需要卻又難解的問題。雖然雙語在現今社會十分流行，但可收集到的雙語語料和單語相較之下仍是九牛一毛，於是在本論文中使用基於詞群之 N 連語言模型來辨識雙語混合語料。藉由同時使用統計學和語言學的方式建立雙語詞群，勾勒出雙語詞彙之間的互動模式，並以此建立語言模型，以補益雙語語料的不足。基於詞群之 N 連語言模型是將 N 連事後機率中欲估測的歷史詞串和目標詞都加以分群以共享資訊的方法，較為粗糙。相較之下，決策樹語言模型則是僅將歷史詞串分群以共享資訊。同時，可集合眾多的隨機決策樹，假設一棵樹能達到的是區域最佳解，那麼在一片森林中，應會有機會接近全域最佳解，這就是隨機森林語言模型。為了能夠使用各種背景語料來強化語言模型，本論文亦使用基於隨機森林的語言模型調適法以進行調適。首先使用大量的背景語料來生成隨機決策樹後，再用目標課程的訓練語料來修剪樹，使得經修剪過後的樹能更貼近目標課程，接著集結經由各領域的背景語料而來的許多片隨機森林，形成眾林之林語言模型。和最初未經調適的基礎語言模型相比，其絕對的辨識正確率進步約 1.78%。

關鍵字

語言模型；雙語混合；詞群；隨機森林；語言模型調適

並列摘要

無資料

並列關鍵字

Language Modeling ； Code-Mixing ； Word Classes ； Random Forest ； Adaptation

參考文獻

[1] “iTunes U - Learn anything, anywhere, anytime,” http://www.apple.com/education/itunes-u.

[2] James Glass, Timothy J. Hazen, Lee Hetherington, and Chao Wang, “Analysis and processing of lecture audio data: Preliminary investigations,” in HLT-NAACL Speech Indexing and Retrieval Workshop, 2004.

[3] A. Park, T. J. Hazen, and J. R. Glass, “Automatic processing of audio lectures for information retrieval: Vocabulary selection and language modeling,” in ICASSP, 2005.

[5] S. Mukhopadhyay, B. Smith, “Passive capture and structuring of lectures,” in Proceedings of the ACM International Conference on Multimedia, 1999, pp. 477–487.

[6] Y.C. Chan, P.C. Ching, T. Lee and H. Cao, “Automatic speech recognition of Cantonese-English code-mixing utterances,” in Interspeech, 2006.

國際替代計量

中英雙語環境下使用詞群及隨機森林的語言模型調適

主題瀏覽