使用支持向量機演算法之鼻音事件偵測

新一代自動語音辨認系統採用以知識為基礎的特徵參數，對特殊音提供更具其代表性特徵參數，以提升偵測正確率。本論文探討了容易混淆的鼻音與半母音特性，利用小波轉換計算每一頻帶範圍的能量值，藉由鼻音與半母音屬於低頻成分較多的性質，進而取出其特徵參數，特徵參數包含梅爾倒頻譜係數(Mel-frequency cepstral coefficients, MFCC)、能量比值(Energy ratio)以及希爾伯轉換後的包絡線值(Hilbert envelope)變化量，比較特徵參數分離效果，再使用支持向量機(Support Vector Machine, SVM)技術達到分類的目的，將音框分類之後，可以找出鼻音的釋放(Release)以及結束(Closure)的轉換點，找出語音分段邊界，並探討此方法的準確性。實驗語料使用TIMIT語料庫，鼻音偵測正確率可達到82%，比上以HMM作音素辨識之關鍵詞檢測架構的偵測率正確率80%可高上2%，其特徵參數使用的是MFCC+△MFCC+△△MFCC+ logEnergy +△logEnergy +△△logEnergy。而以本文方法實驗的釋放與結束轉換點，其偵測的結果與手動標示的記號誤差平均分別是9.74ms及-8.9ms。在假警報率的部分分別對母音、半母音、摩擦音、塞擦音及塞音的分類而言，其百分比分別是2.4%、1%、2%、1%、及0.2%，效果顯示不會有太多誤判的情形。

關鍵字

鼻音偵測；聲學特徵參數；支持向量機

並列摘要

無資料

並列關鍵字

Nasal detection ； Acoustic parameter ； Support vector machine

參考文獻

【9】黃鈞尉, “語音事件偵測與國語連續語音之標音”, 清華大學碩士論文民國九十七年

【10】陳錫賢, “語音特定屬性之偵測與應用”, 清華大學碩士論文民國九十五年

【1】G. Castellanos, G. Daza, L. Sánchez, O. Castrillón, J. Suárez, “Acoustic Speech Analysis for Hypernasality Detection in Children,” Proceedings of the 28th IEEE EMBS Annual International Conference New York City, USA, Aug 30-Sept 3, 2006

【3】J, R. Glass and V. W. Zue (1986), "Signal Representation for Acoustic Segmentation", Proceedings First Australian Conference on Speech Science and Technology, November 1986, pp. 124-129.

【4】T. Pruthi and C. Espy-Wilson, “Acoustic parameters for automatic detection of nasal manner,”Speech Communication, vol. 43, no. 3, pp. 225–239, 2004.

國際替代計量

使用支持向量機演算法之鼻音事件偵測

全文下載

主題瀏覽