近年來網路語音資訊量迅速增長,遠超過人們消化吸收資訊的能力;此外,不像純文字文件,語音文件因為不易呈現在螢幕上而難以瀏覽與搜尋,所以語音文件的自動標題產生顯得更加重要。因此,本論文之主軸在探討數位語音文件之抽象自動標題產生(Abstractive Headline Generation for Spoken Documents)。首先,訓練深層模型都會需要大量的訓練語料,就本論文的語音文件自動標題產生而言,需要數以百萬計的語音文件-參考標題配對,這樣數量的語料在蒐集上是有很大困難的。相對而言,純文字文件-參考標題配對容易取得,因此本論文提出一套基於混淆矩陣(Confusion Matrix)與LG-加權有限狀態轉換器(LG-Weighted Finite State Transducer)的辨識錯誤模型以學習語音辨識結果中的辨識錯誤結構(ASR Error Structure),並用以將純文字文件轉換成模擬語音文件,作為深層自動標題產生模型之訓練資料。此外,傳統深層自動標題產生模型中會加入專注機制提升模型表現,但訓練資料中的辨識錯誤會影響專注機制的效果,因此,本論文將辨識錯誤模型與專注機制結合,藉由辨識信心分數(Confidence Score)修正專注權重(Attention Weights),以改善語音文件自動標題產生模型。最後,本論文也探討提出的模型架構在不同語言(中文、英文)和使用不同語音單位(詞、字、聲韻母、音節、音位)建構之辨識錯誤模型之表現。
為了持續優化網站功能與使用者體驗,本網站將Cookies分析技術用於網站營運、分析和個人化服務之目的。
若您繼續瀏覽本網站,即表示您同意本網站使用Cookies。