透過您的圖書館登入
IP:3.144.12.160
  • 學位論文

使用支撐向量機的自發性語音語句分段

Sentence Segmentation of Spontaneous Speech using Support Vector Machine

指導教授 : 李琳山

摘要


語音處理的技術日新月異,從語音辨識率的提升至語意的理解分析,都被廣泛的研究及應用。語句分段可分為四個階段,首先用能量等基本特徵做粗分段,再將每一粗分段的語音訊號辨識成詞串,接著在詞與詞之間找出適當的語句邊界,最後再將重新分段的語句進行再辨識,以提升辨識率。本論文著重在第三階段的尋找適當斷點。   語音大致上可分為朗讀式語音和自發性語音兩大類,後者會因為語者的思路和語者習慣,說話節奏、韻律、及用詞上與前者不同。而本論文的研究語料為課程語音,屬於自發性語音,實驗中使用支撐向量機做為學習演算法訓練模型,並藉此比較不同的語彙及韻律特徵對語句分段的效用。   實驗分別做在人工標記轉寫和語音辨識後的結果上。語彙特徵包含語言模型特徵、詞性標記特徵、關鍵詞彙特徵,研究顯示語彙特徵彼此有加成性,其中又以關鍵詞彙特徵對結果的提升最有幫助,但由於實驗語料為單一語者,在多語者情況下,其效用尚待實驗;韻律特徵的部分使用了兩組不同的特徵,一組原用於音調辨識;另一組原用於偵測自發性語音中不流利處,而研究顯示後者較為有效。整體而言,韻律特徵的效果遠勝語彙特徵,但兩者具有一定程度的加成性。此外由於自發性語音中,語句邊界附近用詞特性的關係,人工標記轉寫和語音辨識結果的實驗數據和趨勢相近,說明辨識率對自發性語音的語句分段並無太大影響。

並列摘要


參考文獻


[1] MIT OpenCourseWare, http://ocw.mit.edu/index.htm
[2] Hung-Yi Lee, Lin-Shan Lee, "Improved Lattice-Based Spoken Document Retrieval by Directly Learning form the Evaluation Measures", ICASSP 2009
[3] J. Zhang, H.-Y. Chan, P. Fung, L. Cao, "A Comparative Study on speech Summarization of Broadcast News and Lecture Speech", Interspeech 2007
[4] Yun-Nung Chen, Yu Huang, Sheng-Yi Kong, Lin-Shan Lee, "Automatic Key Term Extraction from Spoken Course Lectures using Branching Entropy and Prosodic/Semantic Features", SLT 2010
[5] Daniel Jurafsky, James H. Martin, "Speech and Language Processing", Second Edition

延伸閱讀