Title

跨詞相依三連音素模型大字彙連續語音辨識系統之實作及分析

Translated Titles

Inter-word Tri-phone Model Search and Analysis in Large Vocabulary Continuous Speech Recognition

DOI

10.6342/NTU.2008.01905

Authors

呂東烜

Key Words

大字彙 ; 語音辨識 ; 三連音素 ; 搜尋演算法 ; 維特比光束搜尋 ; speech recognition ; tri-phone ; search algorithm ; viterbi beam search

PublicationName

臺灣大學資訊工程學研究所學位論文

Volume or Term/Year and Month of Publication

2008年

Academic Degree Category

碩士

Advisor

李琳山

Content Language

繁體中文

Chinese Abstract

大字彙連續語音辨識系統,是圖樣辨識及搜尋演算法的結合,為語音領域中的核心技術。雖以隱藏式馬可夫模型為基礎的辨識系統已經發展多年,但當模型設計改變時,舊有的搜尋演算法仍需變動,才可與模型配合。本論文的目標,即是在音素模型上,建立並分析可支援跨詞相依三連音素模型的辨識工具程式。 大字彙連續語音辨識系統的結構十分複雜,環環相扣,一不小心就會出錯。因此,本論文會詳細介紹實作可能碰到的問題,從聲學模型、語言模型、詞典等基礎模型開始,接著導入人工智慧中搜尋演算法的概念,介紹非跨詞相依音素模型如何以詞彙樹展開搜尋空間;利用維特比光束搜尋加快搜尋速度。之後以非跨詞相依的辨識系統為基礎,改進詞彙樹來展開原本在式子上難以推導的跨詞相依性問題,達成跨詞相依三連音素模型大字彙連續語音系統之實作。 實驗中,以傳統右相關聲韻母模型來測試非跨詞相依音素模型;以SAMPA-T的三連音素模型來測試跨詞相依音素模型。以實驗數據討論系統在兩個不同的音素集之中,時間、空間的需求,及討論不同參數之下,對系統效能的影響。 在最後的實驗結果及分析中,以右相關聲韻母為模型的辨識系統,無論在時間與空間上都需求較少;而跨詞相依的三連音素模型,用了更多的參數來描述音素模型,雖時間與空間都需求較多,但正確率比右相關聲韻母模型高,展現出其較精緻的模型能力。

Topic Category 基礎與應用科學 > 資訊科學
電機資訊學院 > 資訊工程學研究所
Reference
  1. 【1】 DSP history - Understanding Speech: An Interview with John Makhoul. IEEE Signal Processing Magazine p.76-79, May 2005
    連結:
  2. 【2】 大字彙中文連續語音辨識之聲學模型及特徵正規化 朱忠玲
    連結:
  3. 【3】 Pattern Classification p.10 Richard O. Duda, Peter E. Hart, David G. Stork. s.l. : Wiley-Interscience, October 2000.
    連結:
  4. 【5】 Progress in Dynamic Programming Search for LVCSR. Hermann Ney, Stefan Ortmanns. Proceedings of IEEE 2000
    連結:
  5. 【7】 Confidence Measures for Large Vocabulary Continuous Speech Recognition. Frank Wessel, Ralf Schlüter, Klaus Macherey, and Hermann Ney, Member, IEEE. IEEE Transactions on Speech and Audio Processing 2001
    連結:
  6. 【8】 Improved Large Vocabulary Continuous Chinese Speech Recognition by Character-based Consensus Network. Yi-Sheng Fu, Yi-Cheng Pan, Lin-Shan Lee. ISCSLP2006
    連結:
  7. 【9】 Tone-Enhanced Generalized Character Posterior Probability (GCPP) for Cantonese LVCSR. Yao Qian1, Frank K. Soong, Tan Lee. ICASSP 2006
    連結:
  8. 【10】 Signal Compression Based on Models of Human Perception. Jayant, N. S., Johnston, J. D. and Safranek, R. J. Proc. IEEE, Oct. 1993, pp. 1385-1422.
    連結:
  9. 【13】 Cepstral analysis technique for automatic speaker verification S. Furui IEEE Trans. Acoustics, Speech and Signal Processing, Vol.29, No.2, pp. 254-272, 1981.
    連結:
  10. 【14】 Estimation of Probabilities from Sparse Data for Other Language Component of a Speech Recognizer S. M. Katz IEEE Trans. Acoustics, Speech and Signal Processing, Vol.35, No.3, pp.400-401, 1987.
    連結:
  11. 【16】 PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval Lee-Feng Chien
    連結:
  12. 【18】 A Speech Recognition Method with A Language-Independent Intermediate Phonetic Codes. Kazuyo TANAKA. And Hiroaki KOJIMA. ICSLP vol. IV pp-191-194, 2000
    連結:
  13. 【19】 Machine Reachable Phonetic Transcription System for Chinese Dialects Spolen in Taiwan, Chiu-yu Tseng and Fu-chiang Chou, The First Oriental COCOSDA Workshop 1998
    連結:
  14. 【21】 A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition, Lawrence R. Rabiner, Proceedings of th IEEE, vol. 77 No. 2, Feb 1989
    連結:
  15. 【23】 Look-Ahead Techniques For Improved Beam Search. S. Ortmanns, H. Ney, A. Eiden, N. Coenen
    連結:
  16. 【24】 MATBN: A Mandarin Chinese Broadcast News Corpus H.-M. Wang, B. Chen, J.-W. Kuo, and S.-S Cheng Interational Journal of Computational Linguistics and Chinese Language Processing, 2005
    連結:
  17. 【4】 Artificial Intelligence: A Modern Approach (2nd Edition) p.59~p.134 Stuart Russell, Peter Norvig. s.l. : Prentice Hall, December 30, 2002.
  18. 【6】 A*-Admissible Key Phrase Spoting With Sub-syllable Level Utterance Verification ERIFICATION. Berlin Chen, Hsin-min Wang, Lee-feng Chien, and Lin-shan Lee
  19. 【11】 Overview of the H.264/AVC Video Coding Standard. ThomasWiegand, Gary J. Sullivan, Senior Member, IEEE, Gisle Bjøntegaard, and Ajay Luthra, Senior Member, IEEE. IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY, VOL. 13, NO. 7, JULY 2003
  20. 【12】 Spoken Language Processing X. Huang, A. Acero, H.-W. Hon. Pearson Education Taiwan Ltd., pp. 424-426, 2005
  21. 【15】 中文語音辨識中語言模型的強化 廖碩鵬
  22. 【17】 SRILM SRI Speech Technology and Research Laboratory http://www.speech.sri.com/projects/srilm/
  23. 【20】 HMM-based speech recognition using decision trees instead of GMMs, R. Teunen and M. Akamine, in Proc. Interspeech, 2007.
  24. 【22】 HTK Cambridge University Engineering Dept. (CUED), Machine Intelligence Laboratory, http://htk.eng.cam.ac.uk/
  25. 【25】 大字彙中文連續語音辨識之一段式及詞圖為基礎之搜尋演算法 潘奕誠