語音事件偵測與國語連續語音之標音

語音辨認技術在近十年來蓬勃發展，傳統自動語音辨認系統(ASR)對於音素辨認是採用資料驅動方式建立統計模型，同時執行語音切割與辨認，此類聲學模型對於變化複雜的語音訊號，很難精確描述不同語音事件之間的差異性。新一代技術採用以知識為基礎(Knowledge-Based)之特徵參數，建立統計模型，對連續語音訊號先進行切割與分類，透過多層切割方式，能精確掌握不同語音事件之差異性，使用的特徵參數維度與資料量也大幅降低。本論文使用Seneff聽覺模型為前端處理器，取其包絡頻譜與同步頻譜輸出。從聽覺模型輸出計算特徵參數，對於不同語音事件採用不同的特徵參數，建立統計模型，或是訂定參數臨界值方式，以這種方式對國語連續語音訊號進行精確切割與分類，以供後端辨識系統使用。本論文實驗將國語連續語音訊號依其聲學性質切割為靜音(silence)、母音(vowel)、鼻音(nasal)、塞音(stop)、塞擦音(affricate)、摩擦音(fricative)六個語音事件。語音事件切割架構採”階層式二分法”，每一階層語音偵測皆依照其聲學上差異分為”偵測目標”與”非偵測目標”，特徵參數則選用能突顯”偵測目標”之參數值，如此架構有助於”偵測目標”的辨識。特徵參數的萃取，以往的研究，著重於語音事件頻譜上之特徵，本論文更加入”時域”上的概念，對於不同語音事件的動態變化特徵描述更為精確，實驗切割效能也有效大幅提升。

關鍵字

語音；語音事件偵測；國語連續語音；標音

參考文獻

【1】Ahmed M. Abdelatty Ali,”Auditory-Based Speech Processing Based on the Average Localized Synchrony Detection”,Acoustic Speech and Signal Processing (ICASSP) ,Vol.3,pp.1623-1626,2000

【2】Ahmed M. Abdelatty Ali,”Acoustic-Phonetic Features for the Automatic Classification of Stop Consonants ”,ICASSP ,Vol.9,NO.8 , November 2001

【3】Ahmed M. Abdelatty Ali,”An Acoustic-Phonetic Feature-Based System for the Automatic Recognition of Fricative Consonants”, Vol.2 , 12-15, pp.961-964,ICASSP 1998

【4】Ahmed M. Abdelatty Ali,”Robust Classification of Stop Consonants Using Audtory-Based Speech Processing”,Vol.10,pp.279-292 ,ICASSP July 2001

【5】Ahmed M. Abdelatty Ali, ”An Acoustic-Phonetic Feature-Based System for Automatic Phoneme Recognition in Continuous Speech”, Circuits and Systems ,Vol.3, pp.118-121, 1999

被引用紀錄

蔡明嘉（2010）。使用支持向量機演算法之鼻音事件偵測〔碩士論文，國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2010.00527

國際替代計量

語音事件偵測與國語連續語音之標音

全文下載

主題瀏覽