透過您的圖書館登入
IP:18.117.188.64
  • 學位論文

基於隱藏式馬可夫模型之中文語音合成系統

HMM-Based Chinese Text-To-Speech System

指導教授 : 李琳山

摘要


語音合成系統近年發展主要可分為兩大類,第一為串接式的語音合成,從錄製好的語音資料庫中挑選所需音訊片段,串接而成所需之語音。第二則是統計模型式的語音合成,不同於前者,此方式會以語音資料庫訓練聲學模型,並於合成時以該模型計算出語音特徵參數,並合成所需之語音。 本論文實作基於隱藏式馬可夫模型之中文語音合成系統,屬於上述第二種語音合成方式。針對中文語音的特性,於訓練隱藏式馬可夫模型的階段,考慮訓練語句之聲調以及韻律結構等影響,訓練出不同韻律特性之聲學模型。並於合成階段,對欲合成的輸入文字進行分析,以條件隨機域模型預測其韻律結構,並配合上述聲學模型合成語音。實驗結果顯示,考慮以上中文特性確實有助於改善合成之語音,不論是以語音訊號誤差為標準的客觀評估,或是以人的聽覺為主的主觀評估,結果皆有進步。 本系統亦結合臉部嘴型動畫合成系統,將合成語音與臉部動畫結合,成為一個Talking Head系統。

並列摘要


無資料

並列關鍵字

HMM TTS Prosody structure CRF Lip-sync animation

參考文獻


1. Sagisaka, Y., et al., ATR v-TALK speech synthesis system. Proc. ICSLP, 1992.
3. Zen, H., et al., The HMM-based Speech Synthesis System Version 2.0. ISCA SSW6, 2007.
6. Tseng, C.-Y. and F.-C. Chou, Machine Readable Phonetic Transcription System for Chinese Dialects Spoken in Taiwan. The Journal of the Acoustical Society of Japan (E), Vol.20, No.3, 1999.
8. Tseng, C.-y., et al., Fluent speech prosody: framework and modeling, in Speech Communication, Vol.46, Issues 3-4. 2005.
9. Bradbury, J., Linear Predictive Coding. 2000.

延伸閱讀