基於隱藏式馬可夫模型之中文語音合成系統

語音合成系統近年發展主要可分為兩大類，第一為串接式的語音合成，從錄製好的語音資料庫中挑選所需音訊片段，串接而成所需之語音。第二則是統計模型式的語音合成，不同於前者，此方式會以語音資料庫訓練聲學模型，並於合成時以該模型計算出語音特徵參數，並合成所需之語音。本論文實作基於隱藏式馬可夫模型之中文語音合成系統，屬於上述第二種語音合成方式。針對中文語音的特性，於訓練隱藏式馬可夫模型的階段，考慮訓練語句之聲調以及韻律結構等影響，訓練出不同韻律特性之聲學模型。並於合成階段，對欲合成的輸入文字進行分析，以條件隨機域模型預測其韻律結構，並配合上述聲學模型合成語音。實驗結果顯示，考慮以上中文特性確實有助於改善合成之語音，不論是以語音訊號誤差為標準的客觀評估，或是以人的聽覺為主的主觀評估，結果皆有進步。本系統亦結合臉部嘴型動畫合成系統，將合成語音與臉部動畫結合，成為一個Talking Head系統。

關鍵字

隱藏式馬可夫模型；語音合成；中文韻律結構；條件隨機域；嘴型動畫

並列摘要

無資料

並列關鍵字

HMM ； TTS ； Prosody structure ； CRF ； Lip-sync animation

參考文獻

1. Sagisaka, Y., et al., ATR v-TALK speech synthesis system. Proc. ICSLP, 1992.

3. Zen, H., et al., The HMM-based Speech Synthesis System Version 2.0. ISCA SSW6, 2007.

6. Tseng, C.-Y. and F.-C. Chou, Machine Readable Phonetic Transcription System for Chinese Dialects Spoken in Taiwan. The Journal of the Acoustical Society of Japan (E), Vol.20, No.3, 1999.

8. Tseng, C.-y., et al., Fluent speech prosody: framework and modeling, in Speech Communication, Vol.46, Issues 3-4. 2005.

9. Bradbury, J., Linear Predictive Coding. 2000.

國際替代計量

基於隱藏式馬可夫模型之中文語音合成系統

全文下載

主題瀏覽