基於隱藏式半馬可夫模型之中文文句轉語音系統及其模型調適與聲音轉換

基於隱藏式半馬可夫模型(Hidden Semi-Markov Model)的文句轉語音系統(text-to-speech system)，是以統計模型描述語音的合成單元及其狀態時長，將輸入的文句表示成一序列的語音合成單元，然後轉換成語音輸出。改變語音合成單元的模型參數，就可以改變合成的聲音，因此可以利用模型調適方法，使合成的語音接近於目標語者的聲音特質、情緒特徵或說話韻律節奏，達到聲音轉換(voice conversion)的目的。本論文更進一步利用目標語者語音的剩餘訊號(residual signal)，加入其語音產生模型的激發訊號中，使合成語音更接近目標語者聲音。論文中提出兩種剩餘訊號加入的方法，並對於合成的語音進行主觀評量與客觀評量。在主觀實驗中，發現其中一種剩餘訊號加入法會在聽覺上感覺到不連續聲音，而另一種方法則沒有不連續的狀況。在客觀評量中則是計算合成語音與目標語者語音的高斯混合模型，量測各高斯混合模型之間的KL距離，看出兩種加入剩餘訊號的方法，都使得其合成語音更接近目標語者語音。

關鍵字

隱藏式半馬可夫模型；模型調適；聲音轉換

參考文獻

[1] M. Abe, S. Nakamura, K. Shikano, and H. Kuwabara. "Voice conversion through vector quantization. " J. Acoust. Soc. Jpn. (E), Vol. 11, No. 2, pp.71–76, 1990.

[2]T. Toda, A.W. Black, K. Tokuda. "Voice conversion based on maximum likelihood estimation of spectral parameter trajectory. " IEEE Transactions on Audio, Speech and Language Processing, Vol. 15, No. 8, pp. 2222-2235, Nov. 2007.

[3] M. Charlier, Y. Ohtani, T. Toda, A. Moinet, T. Dutoit. "Cross-language voice conversion based on eigenvoices. " Proc. INTERSPEECH, pp. 1635-1638, Brighton, UK, Sep. 2009.

[4] A. Kain and M.W. Macon. "Spectral voice conversion for text-to-speech synthesis. " Proc. ICASSP, pp. 285–288, Seattle, USA, May 1998.

[5] A. Hunt and A.W. Black, "Unit selection in a concatenative speech synthesis system using a large speech database." in Proc. ICASSP, 1996, pp. 373-376.

國際替代計量

基於隱藏式半馬可夫模型之中文文句轉語音系統及其模型調適與聲音轉換

全文下載

主題瀏覽