透過您的圖書館登入
IP:3.145.65.134
  • 學位論文

基於標籤與情緒之音樂資訊檢索

Music Information Retrieval Based on Tags and Emotions

指導教授 : 鄭士康
共同指導教授 : 王新民(Hsin-Min Wang)

摘要


由於MP3和網際網路的普及,使用者可以在網路上方便地分享及貢獻音樂資料,因此,數位音樂資料庫在過去二十年間有著爆炸性的增長。當音樂資料繼續成長,人們管理及檢索音樂資料庫的方式必須有革命性的改變,因此,發展更直覺、更有效能、且更有效率的系統,以滿足使用者對於音樂資訊的需求,即是現今音樂資訊檢索(Music Information Retrieval, MIR)領域的終極研究目標。這篇博士論文主要探討如何使用音樂標籤及情緒來建立一個基於內涵之MIR系統,換句話說,在這個系統中,使用者將可以利用音樂標籤或是情緒詢問來檢索一個不含任何人工標記的大型音樂資料庫。 本論文的第一部分主要闡述音樂標籤相關的應用與系統。音樂標籤在網路2.0的時代已經成為一個重要的線上音樂資訊來源,這些標籤包含著豐富且多元的音樂文意情境資訊,諸如藝人名、歌曲名、曲風、心情、樂器、使用情形、評價等等。我們探討了音樂標籤相關的四個主題:一、我們提出了一個新穎的音樂檢索方式,稱為「帶有權重之多標籤(MTML)」詢問,並發展了一個有趣的檢索介面,稱為「標籤雲著色介面」,方便使用者輸入此MTML詢問。二、我們提出以高斯多項組合模型(Gaussian Multinomial Fusion Model, GMFM)來共同模型化音訊特徵及標籤主題,並實作一個可支援前述的MTML詢問機制之基於內涵的音樂搜尋系統。三、我們應用音樂標籤來探索一個更普遍的「音樂相似度評估參考」,並利用此參考來學習一個更有效的音訊特徵表示法,用來表示一首樂曲,讓樂曲間的相似度估算更精確,此方法將有利於音樂推薦系統的發展。四、基於GMFM,我們實現了即時標籤預測的方法,並將其應用於音樂聆聽介面的資訊視覺化,實作了一個稱為Play with Tagging (PWT)的音樂撥放器,可以一邊播放音樂、同時一邊動態顯示當下音樂訊號的標籤內涵。 本論文的第二部分探討音樂情緒相關的研究與應用,主要是發展用於描述多維度情緒之計算統計模型與對應之MIR系統。多維度情緒模型指的是以Valence與Arousal為主所構成的情緒空間,簡稱為VA空間。具體來說,我們首先提出以一套新穎的聲學情緒高斯模型(Acoustic Emotion Gaussians, AEG)來共同模型化音樂的VA情緒及音訊聲學特徵,然後將此AEG模型應用於:一、自動音樂情緒辨認;二、基於多維情緒之音樂檢索;三、自動化音樂及影片配對系統(自動音樂錄影帶生成系統)等。音樂情緒感知是非常主觀的,一個通用的系統並無法完美地滿足每個人。由於AEG是一個機率式及參數式模型,在有充足的多人情緒標記資料的狀況下,它可以描述大眾情緒感知與音訊特徵之間的關係。透過結合模型調適及主動學習的技術,可以很有效率地根據特定使用者的少量標記資料將AEG個人化,便可以達成個人化基於情緒之音樂檢索系統的目的。當應用於自動音樂錄影帶生成系統時,我們延伸AEG的原理,在音樂方面透過音訊特徵,而影片方面則透過視覺特徵,來分別辨析音樂及影片的情緒於VA空間中的機率分布,進而進行兩者的自動配對。 在各別探討完標籤與情緒於MIR的應用後,我們最後結合了聲學標籤伯努力模型(Acoustic Tag Bernoullis, ATB)以及AEG模型,提出了一套非監督式的機器學習方法來分析音樂標籤與VA空間之間的關係,並利用此方法將音樂相關的心情標籤投射進VA情緒空間中,自動生成一個心情標籤雲。 相對於以往的音樂資訊檢索文獻大多專注於自動音樂標籤預測及情緒辨認的效能,本論文的核心是從資訊檢索的觀點出發,無論是以標籤、相似度還是情緒來檢索音樂,我們都是致力於實現一個真正實用且具有延伸性的基於內涵之音樂檢索系統,並且以更能接近使用者所感受的輸出音樂排序來驗證系統的效能,以提供一個更實際的系統評估範例。因此,相信本論文將能為MIR研究領域開創一片新的視野。

並列摘要


The prevailing uses of MP3 and the Internet have contributed greatly to the explosive growth of digital music libraries in last two decades. As the number of music content keeps on exploding, the way that music information is organized and retrieved has to evolve in order to meet the ever increasing demand for intuitive, effective, and efficient information access of music; this is also an ultimate goal of Music Information Retrieval (MIR) research. This dissertation focuses on using music tags and emotions to facilitate content-based music retrieval systems. In the first part of the dissertation, we explore music tags, which have become the major music contextual resources, to (1) develop a novel music query scenario for music with an interesting tag cloud-based interface, (2) realize a tag-based music search system, (3) guide the learning of acoustic feature representation for audio-based music similarity estimation, and (4) enrich the visualization function of a music player. In the second part of this dissertation, we focus on studying the computational models and MIR applications related to the so-called valence-arousal (VA) emotion space. Specifically, we propose a novel acoustic emotion Gaussians (AEG) model that realizes the joint modeling between VA-based emotions and acoustic features, and apply it to music emotion recognition, emotion-based music retrieval, and automatic generation of music video. Due to its parametric nature, model adaptation and active learning can be incorporated to make AEG more flexible for online personalization. Finally, we explore the relationship between tag and VA emotion of music and derive an unsupervised learning framework to map mood tags into the VA space. Throughout this dissertation, we revolve around the core principle of realizing a feasible, flexible, and scalable content-based music retrieval system with tag, similarity, and emotion, and validate the effectiveness of our proposed system with a ranking-based paradigm, which is usually neglected in previous MIR literature. We believe the contributions made in this dissertation would open a new window to the research of MIR.

參考文獻


[6] J. Aucouturier and F. Pachet. Representing musical genre: A state of the art. Journal of New Music Research, 32(1):83–93, 2003.
[7] J.-J. Aucouturier, B. Defreville, and F. Pachet. The bag-of-frame approach to audio pattern recognition: A sufficient model for urban soundscapes but not for polyphonic music. Journal of the Acoustical Society of America, 122(2):881–891, 2007.
[12] S. Benini, L. Canini, and R. Leonardi. A connotative space for supporting movie affective recommendation. IEEE Transactions on Multimedia, 13(6):1356–1370, 2011.
[13] A. Berenzweig, B. Logan, D. Ellis, and B. Whitman. A large-scale evaluation of acoustic and subjective music-similarity measures. Computer Music J., 28(2):63–76, 2004.
[14] T. Bertin-Mahieux, D. Eck, and M. Mandel. Automatic tagging of audio: The state-of-the-art. Machine Audition: Principles, Algorithms and Systems, pages 334–352, 2010.

延伸閱讀