結合多重聲學模型來改進英語語音評分

本論文主要論述的重點在於結合多重聲學模型來改進英語語音評分，並針對各部分設計對應的實驗，測試其改良後的效能。本論文包含兩大部分：第一部分為「多模型合併方法」，第二部分為「利用分治法組合模型」。「多模型合併方法」包含「基於線性識別分析的兩階段辨識」以及「合併HMM模型結果」兩種。「基於線性識別分析的兩階段辨識」先利用使用梅爾倒頻譜係數以及對數能量為特徵訓練出的基礎語音模型做強迫對位，接著再取出phone segment based features進行第二階段的辨識；而「合併HMM模型結果」則利用不同訓練語料的語音模型分別得出log-likelihood排名，再將排名加以合併成單一排名。「利用分治法組合模型」將每個音素區分成獨立的個體，利用訓練找出每個音素最適合的多模型合併方式，以改善英語發音評量系統。為測試多模型組合在發音評量的效能，我們使用以排名為基礎的信心度量測方法。經實驗，基於線性識別分析的兩階段辨識對子音中的鼻音及摩擦音有較好的評量效能，合併HMM模型結果的整體效能亦優於基礎語音模型。而利用分治法組合模型對各個音素使用不同方式進行評量，結果顯示，效能相較僅使用單一種多模型合併亦有明顯的提升。

關鍵字

語音評分；模型結合；線性識別分析；分治法

參考文獻

【1】 Leonardo Neumeyer, Horacio Franco, Mitchel Weintraub, and Patti Price, Automatic Text-Independent Pronunciation Scoring of Foreign Language Student Speech, 1996

【3】 L. Neumeyer, H. Franco, V. Digalakis and M. Weintraub, Automatic scoring of pronunciation quality, 1999

【7】 R. Haeb-Umbach, H.Ney, “Linear Discriminant Analysis for Improved Large Vocabulary Continuous Speech Recognition”, Philips Research Laboratory Aachen P.O. Box 1980, D-5100 Aachen, Germany, 1992

【8】 Nagendra Kumar, “Investigation of Silicon Auditory Models and Generalization of Linear Discriminant Analysis for Improved Speech Recognition”, Baltimore, Maryland, 1997

【9】 Witt, S.M., and Young, S.J., “Phone-level Pronunciation Scoring and Assessment for Interactive Language Learning”, Speech Communication 30, 95-108, 2000

被引用紀錄

劉承泰（2013）。嵌入式語音命令系統的設計與改進〔碩士論文，國立清華大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0016-2511201311364897

國際替代計量

結合多重聲學模型來改進英語語音評分

全文下載

主題瀏覽