透過您的圖書館登入
IP:18.191.21.86
  • 期刊

基於深度學習的語者驗證之研究與實作

摘要


本論文研究並實作了數種基於深度學習的文本無關(text-independent)語者驗證系統。本論文用經過語音前端處理的聲學特徵(MFCC)作為輸入,以語者辨識或語者分類為目標來訓練神經網路。訓練完畢後,神經網路的前幾層被作為特徵提取器,以提取給定語音中的語者特徵。對於每位註冊語者,我們用訓練完成的神經網路從他的每段語音中提取出語者特徵,并以所有得到的特徵向量平均後的結果作為其語者模型。在驗證階段,我們用同樣的神經網路從測試語音中抽取出語者特徵,與欲驗證的語者模型計算餘弦相似度。若相似度超過某個閾值,則驗證成功,反之則驗證失敗。本論文在神經網路架構上嘗試了多種設計,並在NIST SRE2010語料的8conv部分進行了系統的訓練和測試。實驗結果顯示,本論文提出的系統的效能在驗證語音較短時,相對於i-vector系統展現出明顯優勢。當以音檔全長註冊,以2秒語音驗證時,本論文中最好的系統EER僅有9.75%,近乎i-vector系統的一半。在語者辨識的部分,本論文中最好的系統準確率達到88%以上。

延伸閱讀