透過您的圖書館登入
IP:18.189.14.219
  • 學位論文

語音辨識 輔助的 台語語料庫 收集方法 探討

Taiwanese Corpus Collection Methods Using Speech Recognition Techniques

指導教授 : 江永進

摘要


語料庫 是 語言技術的 基礎, 然而 對弱勢語 如台語, 語料收集 並不如 強勢華語 方便。 本文 探討 使用 語音辨識 幫助台語 語料收集, 同時包括 語音語料庫 以及 文字語料庫。 假若 給定資料是 台語錄音 以及 對應的台文, 那麼 我們有機會 快速得到 台語 語音語料、文字語料、標音語料、變調語料, 這不妨叫 台文台音問題。 另外一種 不妨叫 華文台音問題, 假設 給定資料 是 華文資料 以及 對應的 台語翻譯 的語音, 那麼 除了以上四種語料, 我們還可得著 台華平行句 語料; 平行句 對台華互譯 有基礎的 重要性。 因為 語音辨識系統 正確率 尚未完美, 此時 針對每一個 特定句子 及語音, 操作辨識網路 並簡化 其複雜度, 可以提高 辨識的效果, 本文 目的之一 在探討, 給定 特定的 台語句 或 華語句, 如何獲得 包括 正確台語拼音串的 最簡單 辨識網路。 語音辨識 在解碼時, 實際上 可以得到 二項結果: 1° 辨識網路 規範之下 最佳音串 (概似值最大音串列), 2° 最佳音串 各音 所佔時間。 如何使用 這兩個結果, 找到 語料庫中的 可能錯誤,以提升 語料品質, 也是 本文目標。

並列摘要


Corpus is fundamental to computing linguistics. But for marginalized Taiwanese language, corpus collection is not as easy as Chinese. This thesis explores using speech recognition technology to help collect Taiwanese text and speech corpus with various annotations. Given a Taiwanese sentence and its corresponding recorded speech, we might semi-automatically obtain its phonetic annotations and tone sandhi. This gives a total of four corpus contents: text, speech, phonetic annotation, and tone sandhi. Let us call it Taiwanese-text-Taiwanese-speech (TTTS) problem. Another similar setup is the Mandarin-text-Taiwanese-speech (MTTS) problem. In addition to the four corpus contents, we might also obtain Taiwanese Mandarin parallel sentences in the MTTS case. Parallel corpus is essential to the research of Taiwanese-Mandarin translation. Since the current automatic speech recognition system is not perfect yet even for healthy languages like English and Chinese, it is sensible to manipulate the recognition network to decrease the complexity of the network used in the speech recognition system. Using a TTTS corpus and a MTTS corpus, this paper explores ways of constructing the recognition network on a sentential basis both for Taiwanese text and for Mandarin text. The current hidden Markov model based speech recognition system is capable of giving two kinds of results. One is the best path in the recognition network, in the likelihood sense. The other is the occupation time of each syllable. These results can be used in spottin possible errors in the corpus.

並列關鍵字

無資料

參考文獻


[2] Dau-Cheng LyuLyu, Yuang-Chin Chiand and Chun-Nan HsuRen-Yuan. (2005). Modeling Pronunciation Variation for Bi-Lingual Mandarin/Taiwanese Speech Recognition. Computational Linguistics and Chinese Language Processing, 363-380.
[19] 謝博行. (2013). 局部最長連續共同子序列與新詞組收集.
[4] HintonGeoffrey. (2012). Deep Neural Networks for Acoustic Modeling in Speech Recognition. IEEE, 82-97.
[5] HTK Speech Recognition Toolkit. (2009). 擷取自 http://htk.eng.cam.ac.uk/
[7] Kam-Fai WongLi, Ruifeng Xu, Zheng-sheng ZhangWenjie. (2009). Introduction to Chinese Natural Language Processing.

被引用紀錄


林駿羽(2014)。台語聲調辨識〔碩士論文,國立清華大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0016-2912201413492246

延伸閱讀