使用韻律模型的進一步大字彙國語連續語音辨識

人類利用了大量的韻律（Prosody）訊息在日常的口語溝通裡，因此在語音技術中加入韻律相關訊息是讓系統更智慧化與擬人化的途徑之一。本論文企圖突破現今的語音辨識技術，利用韻律訊息來協助辨識。除了傳統頻譜特徵例如MFCC之外，從語音中抽取了韻律特徵來幫助辨識，並訓練韻律模型來建立模型以描述韻律特徵與文字結構的關係。本論文主要以音節為單位計算了許多基頻、能量、長度相關的參數，有些參數是基於韻律學相關知識，推測可能與聲調及韻律詞邊界有關；其他則是列出各種可能的組合，期望用下一步的韻律模型自動選擇出重要的參數。並針對韻律特徵與中文之間的關係提出了韻律詞模型和階層模型兩種方法。並探討基於高斯混合模型(Gaussian Mixture Models)和分類法的模型實現，也提出了企圖結合兩者優點的結合法。其中基於分類法的階層模型有最好的分類正確率。本論文採取兩段式(two pass)大字彙中文辨識架構。第一階段利用基礎辨識器產生詞圖(word graph)之後，第二階段把韻律模型計算的分數加入每個詞弧(word arc)，對詞圖的每一條可能路徑重新評分，然後決定最可能的辨識結果。實驗顯示，韻律模型的整合可增加基礎實驗的字正確率約0.35~1.45%的辨識率。

關鍵字

韻律；語音辨識

並列摘要

無資料

並列關鍵字

prosody ； speech recognition

參考文獻

[5] E. Shriberg et al., “Prosody-based automatic segmentation of speech into sentences and topics,” Speech communication, 32(1-2):127-154, 2000, Special Issue on Accessing Information in Spoken Audio.

[8] A. Stolcke et al., “Dialogue act modeling for automatic tagging and recognition of conversational speech,” Computayional Linguisrics, 26(2):339-373, 2000

[9] Nwe T.L., Foo S.W.; De Silva L.C. “Speech emotion recognition using hidden Markov models,” Speech Communication, Volume 41, Number 4, November 2003, pp. 603-623(21)

[11] S. Kajarekar et al., “Speaker recognition using prosodic and lexical features,” in Proc. IEEE Workshop on Speech Recognition and Understanding, 2003

[13] Ken Chen et al., “Prosody dependent speech recognition on radio news corpus of American English,” IEEE trans. Audio, Speech, and Language Processing, vol.14, No.1, Jan. 2006

被引用紀錄

蘇嘉雄（2014）。電腦輔助華語學習之聲調偏誤類型偵測〔碩士論文，國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2014.02460

鄭力維（2008）。國語之韻律及聲調模型與其在語音辨識及韻律預測之應用〔碩士論文，國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2008.01041

盧彥廷（2007）。以預測的韻律詞邊界建構韻律模型使用於大字彙中文連續語音辨識〔碩士論文，國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2007.01976

國際替代計量

使用韻律模型的進一步大字彙國語連續語音辨識

全文下載

主題瀏覽