基於深度學習的語者驗證之研究與實作

本論文研究並實作了數種基於深度學習的文本無關（text-independent）語者驗證系統。本論文用經過語音前端處理的聲學特徵（MFCC）作為輸入，以語者辨識或語者分類為目標來訓練神經網路。訓練完畢後，神經網路的前幾層被作為特徵提取器，以提取給定語音中的語者特徵。對於每位註冊語者，我們用訓練完成的神經網路從他的每段語音中提取出語者特徵，并以所有得到的特徵向量平均後的結果作為其語者模型。在驗證階段，我們用同樣的神經網路從測試語音中抽取出語者特徵，與欲驗證的語者模型計算餘弦相似度。若相似度超過某個閾值，則驗證成功，反之則驗證失敗。本論文在神經網路架構上嘗試了多種設計，並在NIST SRE2010語料的8conv部分進行了系統的訓練和測試。實驗結果顯示，本論文提出的系統的效能在驗證語音較短時，相對於i-vector系統展現出明顯優勢。當以音檔全長註冊，以2秒語音驗證時，本論文中最好的系統EER僅有9.75%，近乎i-vector系統的一半。在語者辨識的部分，本論文中最好的系統準確率達到88%以上。

關鍵字

語者驗證；神經網路；語者特徵

國際替代計量

基於深度學習的語者驗證之研究與實作

全文下載

主題瀏覽

基於深度學習的語者驗證之研究與實作

摘要

關鍵字

延伸閱讀

國際替代計量

本網站使用Cookies