基於隱藏式半馬可夫模型(Hidden Semi-Markov Model)的文句轉語音系統(text-to-speech system),是以統計模型描述語音的合成單元及其狀態時長,將輸入的文句表示成一序列的語音合成單元,然後轉換成語音輸出。改變語音合成單元的模型參數,就可以改變合成的聲音,因此可以利用模型調適方法,使合成的語音接近於目標語者的聲音特質、情緒特徵或說話韻律節奏,達到聲音轉換(voice conversion)的目的。 本論文更進一步利用目標語者語音的剩餘訊號(residual signal),加入其語音產生模型的激發訊號中,使合成語音更接近目標語者聲音。論文中提出兩種剩餘訊號加入的方法,並對於合成的語音進行主觀評量與客觀評量。在主觀實驗中,發現其中一種剩餘訊號加入法會在聽覺上感覺到不連續聲音,而另一種方法則沒有不連續的狀況。在客觀評量中則是計算合成語音與目標語者語音的高斯混合模型,量測各高斯混合模型之間的KL距離,看出兩種加入剩餘訊號的方法,都使得其合成語音更接近目標語者語音。