透過您的圖書館登入
IP:216.73.216.60
  • 學位論文

使用隨機漫步及分佈式詞彙表示法增強個人相片之語意檢索

Enhanced Semantic Retrieval of Personal Photos Using Random Walk and Distributed Word Representations

指導教授 : 李琳山

摘要


本論文探討在使用者加入稀疏語音標註之條件下,如何進行有效的個人相片語意檢索(semantic retrieval of personal photos)。由於近年來數位相機及智慧型手機十分普及,使用者通常會迅速累積大量的個人相片,隨之而來的一個重要問題便是如何在數量龐大的個人相片資料庫中快速瀏覽與搜尋。一般使用者都喜歡直接用語意式查詢指令(semantic query) 來找相片,例如「母親節聚餐」。但以前的個人相片檢索多半是以內容為基礎的影像檢索(content-based image retrieval, CBIR),倚賴影像低階描述特徵且必須以一張相片作為查詢指令(query),並不適用於使用高階語意概念(high level smenatic concepts) 的影像檢索;而以語意為基礎的影像檢索則非常倚賴影像相關的標籤(tags) 或標註(annotations),但使用者不太可能把所有的相片都加上標註,且使用語音標註的方式又比使用鍵盤輸入的文字標註來的更為方便,所以本論文把主題設定在使用者輸入稀疏語音標註之條件下的個人相片語意檢索,亦即有少數相片上有語音標註。實現的方法主要是利用主題模型(topic model) 整合語音和影像特徵,並使用隨機漫步模型進行重新排序(re-ranking),最後再提出使用分佈式詞會表示法(distributed word representation) 來舒緩語音特徵稀疏的問題。 首先,由於語音標註可能在任何地方被錄製,可能是非常自發性的 (spontaneous) 說話方式,所以導致辨識率低下,所以利用詞圖進行抽取字詞頻率頻率期望值(expected term frequency) 當作是語音特徵,但只有少數的相片有語音標註,所以我們必需對每張相片抽取局部(local) 與全域(global) 的影像特徵,來補充語音特徵所遺漏的資訊。而本論文利用主題模型來整合語音和影像特徵,並以此模型訓練出來的「潛藏主題」建構檢索模型。 此外,我們發現主題模型的檢索效能還有很多進步空間,所以把從主題模型檢索出的首次檢索結果(first-pass retrieval results) ,基於字詞頻率期望值、局部與全域的影像特徵計算相片之間的相似度,再套用隨機漫步模型(random walk) 演算法,讓相似度越高的相片獲得越相近的相關分數(relevance score) ,進而達成重新排序的效果,並使其檢索效能獲得相當大的進步。 此外,我們發現由於語音特徵非常稀疏,導致在訓練主題模型時就特別仰賴影像特徵,但其實語音特徵才是最主要提供使用者個人化與語意資訊的來源,所以進一步使用近年在尋找語意(semantic) 和句法(syntactic) 相關詞的任務中有良好表現的分佈式詞彙表示法,基於字詞頻率期望值與整體影像語意概念,以類似自動增加標註的方法找出相關詞並加入語音特徵中,讓原本稀疏的語音特徵不再稀疏,進而讓主題模型在訓練時考慮更多個人化與語意相關的資訊,並且也讓隨機漫步模型重新排序的效能也更好。

並列摘要


無資料

參考文獻


Ritendra Datta, Jia Li, and James Z Wang, “Content-based image retrieval: approaches
workshop on Multimedia information retrieval. ACM, 2005, pp. 253–262.
[2] Myron Flickner, Harpreet Sawhney, Wayne Niblack, Jonathan Ashley, Qian Huang,
Byron Dom, Monika Gorkani, Jim Hafner, Denis Lee, Dragutin Petkovic, et al.,
“Query by image and video content: The qbic system,” Computer, vol. 28, no. 9,

延伸閱讀