透過您的圖書館登入
IP:3.145.201.71
  • 學位論文

台語聲調辨識

Taiwanese Tone Recognition

指導教授 : 江永進
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


本文 探討 台語聲調 自動辨識。 使用 地藏經 台語語音 語料庫, 我們 先使用 HTK (Hidden Markov Model Toolkit) 切出 音節, 每一個 音節 的 疊合短時音框 計算 acf/amdf (autocorrelation function divided by absolute mean difference function), 當作 基礎 特徵量; 然後 使用 二種 方式 做 台語聲調 分類。 第一種 方式 先從 基礎 特徵量 計算 音高軌跡, 概念上 是在 音高的 等高線圖 上, 去尋找 最大島嶼 的 山稜線, 音高軌跡 再配適 三階多項式, 所配適 多項式 的係數 當做 最終 特徵量, 然後使用 線性判別分析(LDA)、 二次判別分析(QDA) 等方法 分類; 在 交叉驗證 之下, 效率 52%~59% 左右。 第二種 方式 是將 基礎 特徵量 當作 一張 圖片, 將圖片 標準化, 當做 輸入的 特徵量, 然後 再使用 最近 研究效果 良好的 深度信念網路(Deep Belief Networks, DBN) 做分類, 交叉驗證 辨識效率 可達 72% 以上, 顯示DBN 在 大量資料 之下 可獲得 較佳結果。

並列摘要


This thesis explores Taiwanese tone automatic recognition. Using DeZongGing (地藏經) Taiwanese speech corpus and the Hidden Markov Model Toolkit (HTK), we first segment a speech waveform into syllable segments. Then for each syllable segment, short time speech analysis is performed using acf/amdf (autocorrelation function divided by absolute mean difference function). Using these as basic features, we then explore two kinds of classifiers for Taiwanese tones. For the first kind, we further reduce the basic features into the coefficients of third order polynomial fit on the pitch tracks; pitch tracks can be obtained in a different number of ways, and we use the ridge of the largest island size in the acf/amdf map. With now four coefficients for each syllable, we then classify the syllables for their tones using LDA (linear discriminant analysis), QDA (quadratic discriminant analysis). Under cross validation, the accuracies of these classifiers range from 52% to 59%. For the second kind, we treat the basic features as a gray level picture, normalized them into size 28×28, and then use the Deep Belief Networks(DBN) for classification, as in the recognition case of hand written digits. The cross validation accuracies can go upto 72%, with or without noise perturbations.

參考文獻


[2] 陳雅婷. (2012). 使用 擴展修剪演算法 決定語音音週標記 及 在台語語音合成的應用. 清華大學統計學研究所學位論文, 1-40。
[8] 黃士旗. (2006). “中文語音聲調辨識的改良與錯誤分析”. 清華大學資訊系統與應用研究所學位論文, 1-62。
[15] 游聲峰. (2014). 語音辨識 輔助的 台語語料庫 收集方法 探討. 清華大學統計學研究所學位論文。
[5] “Deep learning 學習筆記整理” (2014取閱).
[6] “Deep learning 學習總結” (2014取閱).

延伸閱讀


國際替代計量