透過您的圖書館登入
IP:3.133.123.193
  • 學位論文

使用查詢詞擴展與自動習得之聲學組型強化語音數位內容之語意檢索

Enhanced Semantic Retrieval of Spoken Content with Query Expansion and Automatically Discovered Acoustic Patterns

指導教授 : 李琳山

摘要


本論文之主軸在探討語音數位內容之語意檢索(Semantic Retrieval of Spoken Content)。由於近年來網路日新月異,使得網路上包含語音資訊的多媒體數位內容(Multimedia Content) 如線上課程、電影、戲劇、會議錄音等日漸增加,因此,語音數位內容之檢索也隨之受到重視。但以前的語音數位內容檢索多半著重於口述語彙偵測(Spoken Term Detection),而本篇論文將把目標放在語意檢索(指找到語意相關的語音文件,但未必包含查詢詞(Query Terms)),實現的方法主要是借助查詢詞擴展(Query Expansion),並另外加入了一套自動習得之聲學組型(Automatically Discovered Acoustic Patterns) 用以解決以往語音數位內容語意檢索之困難。 首先,由於傳統的語音數位內容語意檢索是先將語音文件辨識為以文字構成的詞圖後,再於詞圖上進行查詢詞擴展,但有許多聲學上的資訊會在辨識之中流失,或是有辨識錯誤與辭典外辭彙也會使檢索系統的成效下降,因此本論文在文字的查詢詞擴展之外,再加入一套自動習得之聲學組型的查詢詞擴展,並結合兩套查詢詞擴展之結果回傳給使用者。 此外,使用聲學組型也可以直接達成非監督式(Unsupervised) 語音文件的語意檢索。傳統的語意檢索必須依賴文字才知語意,故需將語音文件辨識成詞圖,但是這樣需要已訓練得很好的聲學模型和語言模型,而這兩者的訓練需要有妥為標注(annotated) 並和數位內容適度匹配(matched) 的訓練語料。通常是非常昂貴的,因此我們將所有語音文件辨識為聲學組型的序列之後,在這些聲學組型的序列上進行查詢詞擴展,進而達到無需標注語料的非監督式語音數位內容之語意檢索。 另一方面,由於聲學組型在訓練時並不知道聲音和詞之間的關聯,所以會將所有同音詞的聲音歸類到同一個聲學組型中,這會使得檢索的成效下降。所以本論文進一步使用遞迴式類神經網路語言模型(Recurrent Neural Network Language Model)的詞表示法(Word Representation)將同一個聲學組型按照句法(Syntactics)和語意(Semantics)的不同進一步分群為不同的聲學組型,以便提升檢索系統成效。 最後,由於行動裝置日益重要,也使得行動裝置上的語音輸入漸受重視,因此本論文在Google 眼鏡上開發了兩個應用程序:雲端個人化語言翻譯系統和雲端個人化新聞查詢系統,幫助使用者在行動裝置上快速地取得想要的資訊。

並列摘要


無資料

參考文獻


[1] Yaodong Zhang and James R Glass, “Unsupervised spoken keyword spotting via segmental dtw on gaussian posteriorgrams,” in Automatic Speech Recognition & Understanding, 2009. ASRU 2009. IEEE Workshop on. IEEE, 2009, pp. 398–403.
[3] Lin-shan Lee and Berlin Chen, “Spoken document understanding and organization,” Signal Processing Magazine, IEEE, vol. 22, no. 5, pp. 42–60, 2005.
[5] ChengXiang Zhai, “Statistical language models for information retrieval,” Synthesis Lectures on Human Language Technologies, vol. 1, no. 1, pp. 1–141, 2008.
[8] Chun-an Chan and Lin-shan Lee, “Unsupervised spoken-term detection with spoken queries using segment-based dynamic time warping.,” in INTERSPEECH, 2010, pp. 693–696.
[9] Timothy J Hazen, Wade Shen, and Christopher White, “Query-by-example spoken term detection using phonetic posteriorgram templates,” in Automatic Speech Recognition & Understanding, 2009. ASRU 2009. IEEE Workshop on. IEEE, 2009, pp. 421–426.

延伸閱讀