過去李瑞庭博士提出一種稱作3D C-string的知識結構,將視訊中物件之間的空間與時間關係利用字串的方式記錄下來,以便於搜尋、管理與顯現視訊資料庫中的視訊物件,可是由於視訊除了包含視訊資料以外,也包含了豐富的音訊資料,如果能增加音訊方面的知識結構,將會提高搜尋的準確性。因此我們在本篇論文中以3D C-string 的觀念為基礎提出了一種新的視訊和音訊知識結構來進行視訊資料庫中的搜尋,命名為4D C-string。4D C-string的視覺部分,我們利用視訊物件的投射來表示一個視訊中物件間的空間與時間關係,並且記錄物件移動的軌跡與大小變化,從音訊部分我們萃取三種音訊特徵以形成音訊字串,包括安靜/非安靜、音樂/演講、歌手/演講者辨識。我們也定義了相似度的測量並提出了結合音訊和視訊相似度比對的演算法。最後,我們會藉由一些實驗結果驗證我們所提出演算法的效率。
This paper presents a new audio-visual knowledge structure and similarity for video database systems, called 4D C-string. It is based on the 3D C-string, which is a knowledge structure that can express visual characteristic of objects in a video but it does not consider the audio part of videos. So we add audio dimension on it to make the retrieval results more precise. For the visual part, we can generate strings to represent the spatial and temporal relations between the objects in a video and their motions and size changes. For the audio part, we can generate three audio strings. Then we propose the similarity retrieval algorithm based on the visual and audio information to retrieve the similar videos from the database for a given query video. Our proposed method this approach can provide user an easy and efficient way to retrieve, visualize and manipulate video and audio objects in video database systems.
為了持續優化網站功能與使用者體驗,本網站將Cookies分析技術用於網站營運、分析和個人化服務之目的。
若您繼續瀏覽本網站,即表示您同意本網站使用Cookies。