基於機器學習之中文語句分段

豐富轉寫(rich transcription)，即對自動語音辨識(ASR)產生的轉寫添加更豐富的資訊，可以幫助理解語音資訊的內容。本論文研究豐富轉寫中的語句分段(speech sentence segmentation)，即在未分段的轉寫中自動標出語句段落的技術。近年來各種機器學習模型的快速進步並廣泛使用於數位語音處理領域，本論文的研究方法亦是採用這些新模型。本論文使用了詞彙特徵(lexical feature)與韻律特徵(prosody feature)作為語句分段之兩大類特徵；比較條件隨機域(CRF)，支撐向量機(SVM)，調適性推昇法(AdaBoost)三種學習模型在COSPRO與MATBN兩套不同語料庫之表現。實驗顯示詞彙特徵與韻律特徵彼此有互補的效果。使用條件隨機域為學習模型時以K–平均聚集法(K–means clustering)聚集韻律特徵的表現會比均分K 等分聚集好，使F-測量(F-measure)進步約1%；使用支撐向量機為學習模型在資料不平衡的情況下時，須設法降低不平衡的影響，使F-測量進步約5%。實驗顯示在乾淨的朗讀式語料庫COSPRO中，支撐向量機表現最好，達到0.852 的F-測量；而在有雜訊的新聞語料庫MATBN中，條件隨機域表現最好，達到0.750 的F-測量，而調適性推昇法的F-測量在兩套語料庫中都居於中間。實驗並比較三種學習模型的接受器操作特性曲線(receiver operating curve, ROC curve)。與F-測量的趨勢一致。

關鍵字

語句分段；豐富轉寫；詞彙特徵；韻律特徵；條件隨機域；支撐向量機；調適性推昇法

並列摘要

無資料

並列關鍵字

sentence segmentation ； rich transcription ； prosody ； CRF ； SVM ； AdaBoost

參考文獻

[62] 江振宇 “非監督式中文語音韻律標記及韻律模式(Unsupervised Joint Prosody Labeling and Modeling for Mandarin Speech),” 博士論文, 國立交通大學電信工程學研究所, 2009

[20] 林哲光 “中文自發性語音辨識中偵測修正性不流暢現象之新方法(New Approaches for Detecting Edit Disfluencies in Transcribing Spontaneous Mandarin Speech),” 博士論文, 國立台灣大學電信工程學研究所, 2009

[51] H.-M. Wang, B. Chen, J.-W. Kuo, and S.-S Cheng “MATBN: A Mandarin Chinese Broadcast News Corpus,” Interational Journal of Computational Linguistics and Chinese Language Processing, 2005

[21] 王惟正 “國語語音訊號中發音偏誤類型之自動偵測(Automatic Detection of Pronunciation Error Patterns from Speech Signals in Mandarin Chinese),”碩士論文, 國立台灣大學資訊工程學研究所, 2008

[8] 鄭力維 “國語之韻律及聲調模型與其在語音辨識及韻律預測之應用(Prosody and Tone Modeling for Mandarin Chinese with Applications in Speech Recognition and Prosody Prediction),” 碩士論文, 國立台灣大學電信工程學研究所, 2008

國際替代計量

基於機器學習之中文語句分段

主題瀏覽