透過您的圖書館登入
IP:18.224.72.117
  • 學位論文

語音事件偵測與國語連續語音之標音

Speech Event Detection and the Labeling of Continuous Mandarin Speech

指導教授 : 王小川

摘要


語音辨認技術在近十年來蓬勃發展,傳統自動語音辨認系統(ASR)對於音素辨認是採用資料驅動方式建立統計模型,同時執行語音切割與辨認,此類聲學模型對於變化複雜的語音訊號,很難精確描述不同語音事件之間的差異性。新一代技術採用以知識為基礎(Knowledge-Based)之特徵參數,建立統計模型,對連續語音訊號先進行切割與分類,透過多層切割方式,能精確掌握不同語音事件之差異性,使用的特徵參數維度與資料量也大幅降低。 本論文使用Seneff聽覺模型為前端處理器,取其包絡頻譜與同步頻譜輸出。從聽覺模型輸出計算特徵參數,對於不同語音事件採用不同的特徵參數,建立統計模型,或是訂定參數臨界值方式,以這種方式對國語連續語音訊號進行精確切割與分類,以供後端辨識系統使用。 本論文實驗將國語連續語音訊號依其聲學性質切割為靜音(silence)、母音(vowel)、鼻音(nasal)、塞音(stop)、塞擦音(affricate)、摩擦音(fricative)六個語音事件。語音事件切割架構採”階層式二分法”,每一階層語音偵測皆依照其聲學上差異分為”偵測目標”與”非偵測目標”,特徵參數則選用能突顯”偵測目標”之參數值,如此架構有助於”偵測目標”的辨識。特徵參數的萃取,以往的研究,著重於語音事件頻譜上之特徵,本論文更加入”時域”上的概念,對於不同語音事件的動態變化特徵描述更為精確,實驗切割效能也有效大幅提升。

參考文獻


【1】Ahmed M. Abdelatty Ali,”Auditory-Based Speech Processing Based on the Average Localized Synchrony Detection”,Acoustic Speech and Signal Processing (ICASSP) ,Vol.3,pp.1623-1626,2000
【2】Ahmed M. Abdelatty Ali,”Acoustic-Phonetic Features for the Automatic Classification of Stop Consonants ”,ICASSP ,Vol.9,NO.8 , November 2001
【3】Ahmed M. Abdelatty Ali,”An Acoustic-Phonetic Feature-Based System for the Automatic Recognition of Fricative Consonants”, Vol.2 , 12-15, pp.961-964,ICASSP 1998
【4】Ahmed M. Abdelatty Ali,”Robust Classification of Stop Consonants Using Audtory-Based Speech Processing”,Vol.10,pp.279-292 ,ICASSP July 2001
【5】Ahmed M. Abdelatty Ali, ”An Acoustic-Phonetic Feature-Based System for Automatic Phoneme Recognition in Continuous Speech”, Circuits and Systems ,Vol.3, pp.118-121, 1999

被引用紀錄


蔡明嘉(2010)。使用支持向量機演算法之鼻音事件偵測〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2010.00527

延伸閱讀