本論文之主軸在探討非督導式學習 (Unsupervised Learning) 得到的聲音詞向量表示 (Audio Vector Representation)。由於這幾年來網路迅速的發展、資料傳輸的便利,使得搜集資料的便利性大大的提升,同時在網路上的影音檔案也隨之巨幅的提升,例如線上課程、電影、短片、ldots、等等的內容都能夠透過網路很迅速地獲得,使得語音數位內容檢索的重要程度也隨之提升。但由於人力的問題缺乏分類、字幕標註等等問題亦同時顯現,增加了語音多媒體內容 (Multimedia Content) 的檢索難度,也因此本論文目標即為藉由提取語音內容的表示向量來增進口述語彙偵測 (Spoken Term Detection, STD) 的成效,同時分析聲音詞向量是否確具並且利用資源豐富的語言訓練出來的抽取模型。 首先,最近的序列至序列模型在自然語言處理上有非常廣泛的應用,而其功能主要是將整句話轉成固定長度的向量,藉由此向量代表整句話的語意。若將此概念套入數位語音訊號中的話可以處理聲音訊號是時間相關的特徵序列的問題,亦即能夠將長度隨時間變化的聲音特徵向量序列壓縮成固定長度的向量,如此一來我們可以將一個音素、一個詞、更甚者是一句話壓縮成固定長度的向量。在本論文中利用此模型將每個詞壓縮成固定長度的向量作為該詞的聲音詞向量,並對於該向量進行分析。 由於在傳統的非督導式口述語彙偵測通常使用動態時間校準 (Dynamic Time Warping, DTW) 作為偵測的方法,但是鑒於在線上 (online) 進行動態時間校準花費的時間以及運算資源較大,若有固定長度的聲音詞向量則在比較時僅需要比較兩向量之間的相似性,同時也能在線下 (off-line) 時先將所有的語音文件進行聲音詞向量的抽取,能夠大幅縮短比較的時間以及運算資源,且有更佳的表現。 最後將英語作為豐富資源語言作為聲音詞向量模型的訓練語料,假設各語言之間能夠共享相似的發音結構,將此聲音詞向量模型套用至其他語言上,進行語言轉移的實驗,並且分析在其他語言得到的聲音詞向量是否含有該詞的發音結構特徵,進一步分析得到的聲音詞向量,之後也解析將該模型應用於其他語言上的口述語彙偵測結果。