音型之交互增強及多層次音型深層類神經網路使用於非督導式語音特徵抽取與口述語彙發掘

本論文主要探討語音處理中兩個非督導式學習的核心問題──非督導式語音特徵抽取(Unsupervised Speech Feature Extraction) 及非督導式口述語彙發掘(Unsupervised Spoken Term Discovery)。現今成功的語音辨識技術，皆建立在高度督導式的學習架構上，不但仰賴大量對於欲辨識語言的專業知識，亦需要大量具有人工標註的訓練語料。然而此兩者皆需付出相當成本才能夠取得，在當前的巨量資料(Big Data) 時代下，每日都有無窮無盡的新語音訊號被產生出來，希望以人工方式一一為每筆資料加上標註可說是相當不切實際的。因此，不需任何人工標註的非督導式學習在近年獲得愈來愈多的關注，它不但免除了人工標註之成本，同時這樣的學習方式也更貼近人類嬰幼兒的語言學習過程。針對非督導式口述語彙發掘，本論文主要以多層次音型產生器(Multi-level Acoustic Tokenizer, MAT) 所自動習得的音型(Acoustic Tokens) 進行改良。我們使用自動習得之音型與其型別(Type) 訓練一遞迴式類神經網路語言模型(Recurrent Neural Network Language Model, RNNLM)，抽取每個音型的詞嵌入(Word Embedding)，並探討詞嵌入對於音型的型別歸類錯誤之修正能力。我們也提出了多層次音型之交互增強(Mutual Reinforcement for Acoustic Tokens)，將多套獨立的音型所攜帶的聲學及語言資訊(acoustic and linguistic information) 整合起來，以產生更佳的音型產生器所需的訓練用初始值(initialization)，以便習得更佳的音型。本論文並提出多層次音型深層類神經網路(MAT-Deep Neural Network, MATDNN)，包含了一多層次音型產生器以及一多目標深層類神經網路(Multi-target Deep Neural Network, MDNN)，同時將非督導式語音特徵抽取和非督導式口述語彙發掘兩項工作(task) 整合在一起考慮，利用迭代學習架構(Iterative Learning Framework) 將其中一方的結果用於另一方的訓練之中，使其在兩個不同問題上得到的成果能夠彼此互惠，促成更多的進步。最後我們把這整套架構方法用在2015年Interspeech的零標註語音競賽(Zero Resource Speech Challenge)上，使用其語料庫以及評估度量，在非督導式語音特徵抽取及非督導式口述語彙發掘的兩個賽項上都獲得比基準數據(baseline)的JHU系統更好的結果。

關鍵字

非督導式語音特徵抽取；非督導式口述語彙發掘

並列摘要

無資料

並列關鍵字

Unsupervised Speech Feature Extraction ； Unsupervised Spoken Term Discovery

參考文獻

[1] Lawrence R Rabiner, “A tutorial on hidden markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.

[2] Navdeep Jaitly, Patrick Nguyen, AndrewWSenior, and Vincent Vanhoucke, “Application of pretrained deep neural networks to large vocabulary speech recognition.,”

in INTERSPEECH, 2012.

[3] George E Dahl, Dong Yu, Li Deng, and Alex Acero, “Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition,” Audio, Speech, and

[4] Thomas Kemp and Alex Waibel, “Unsupervised training of a speech recognizer: recent experiments.,” in Eurospeech, 1999.

國際替代計量

音型之交互增強及多層次音型深層類神經網路使用於非督導式語音特徵抽取與口述語彙發掘

全文下載

主題瀏覽