於未見噪音環境下以非監督式域調適於語音增強之研究

本論文中，我們提出了一種新穎的噪音調適語音增強系統，該系統採用域對抗訓練來解決訓練集和測試集之間噪音環境不匹配的問題。這種不匹配是基於深度學習的語音增強系統中的關鍵問題，當測試環境的噪音是訓練時``未見'的種類時，可能導致語音增強系統的去噪能力嚴重降低。而真實世界中存在無數種的聲學環境，因此這個不匹配的問題非常容易發生，我們試圖利用非監督式域調適的方法來解決此問題。本論文的系統包含了基於類神經網路的語音增強模型和一個域鑑別器，在訓練期間，鑑別器藉由對抗訓練的方式鼓勵語音增強模型產生噪音不變的特徵，藉此強化系統對未見噪音環境的穩健性。我們使用了TIMIT語料庫來評估所提出的系統，實驗結果顯示相較於基準模型，經過噪音調適的語音增強模型在三個常用的語音評估指標：PESQ、SSNR、STOI上都獲得了顯著進步。更進一步地，我們提出了改進版本的域對抗訓練，將域對抗訓練從原本的特徵空間移至輸出空間進行，使模型能夠更好地保留頻譜結構。實驗結果證實，此改進方法在語音品質和降噪能力上相較原始的域對抗訓練又能夠得到更多的提升。

關鍵字

深度學習；語音增強；非監督式域調適

並列摘要

無資料

並列關鍵字

deep learning ； speech ehancement ； unsupervised domain adaptation

參考文獻

[1] Jun-Yan Zhu, Taesung Park, Phillip Isola, and Alexei A Efros, “Unpaired image-to- image translation using cycle-consistent adversarial networks,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 2223–2232.

Google Scholar

[2] Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, François Laviolette, Mario Marchand, and Victor Lempitsky, “Domain- adversarial training of neural networks,” The Journal of Machine Learning Research, vol. 17, no. 1, pp. 2096–2030, 2016.

Google Scholar

[3] Judy Hoffman, Eric Tzeng, Taesung Park, Jun-Yan Zhu, Phillip Isola, Kate Saenko, Alexei A Efros, and Trevor Darrell, “Cycada: Cycle-consistent adversarial domain adaptation,” arXiv preprint arXiv:1711.03213, 2017.

Google Scholar

[4] Philipos C Loizou, Speech enhancement: theory and practice, CRC press, 2007.

Google Scholar

[5] Steven Boll, “Suppression of acoustic noise in speech using spectral subtraction,” IEEE Transactions on acoustics, speech, and signal processing, vol. 27, no. 2, pp. 113–120, 1979.

Google Scholar

國際替代計量

於未見噪音環境下以非監督式域調適於語音增強之研究

全文下載

主題瀏覽