語音辨認技術在近十年來蓬勃發展,傳統自動語音辨認系統(ASR)對於音素辨認是採用資料驅動方式建立統計模型,同時執行語音切割與辨認,此類聲學模型對於變化複雜的語音訊號,很難精確描述不同語音事件之間的差異性。新一代技術採用以知識為基礎(Knowledge-Based)之特徵參數,建立統計模型,對連續語音訊號先進行切割與分類,透過多層切割方式,能精確掌握不同語音事件之差異性,使用的特徵參數維度與資料量也大幅降低。 本論文使用Seneff聽覺模型為前端處理器,取其包絡頻譜與同步頻譜輸出。從聽覺模型輸出計算特徵參數,對於不同語音事件採用不同的特徵參數,建立統計模型,或是訂定參數臨界值方式,以這種方式對國語連續語音訊號進行精確切割與分類,以供後端辨識系統使用。 本論文實驗將國語連續語音訊號依其聲學性質切割為靜音(silence)、母音(vowel)、鼻音(nasal)、塞音(stop)、塞擦音(affricate)、摩擦音(fricative)六個語音事件。語音事件切割架構採”階層式二分法”,每一階層語音偵測皆依照其聲學上差異分為”偵測目標”與”非偵測目標”,特徵參數則選用能突顯”偵測目標”之參數值,如此架構有助於”偵測目標”的辨識。特徵參數的萃取,以往的研究,著重於語音事件頻譜上之特徵,本論文更加入”時域”上的概念,對於不同語音事件的動態變化特徵描述更為精確,實驗切割效能也有效大幅提升。