哼唱式音樂檢索是以哼唱的方式,從大量資料庫中找出正確的歌曲。以往使用動態時間伸縮(dynamic time warping,DTW)進行辨識的結果,雖然計算時間較慢但是回傳結果較有參考價值。另一種方法是線性縮放(linear-scaling,LS),辨識速度非常的快,但是對哼唱歌曲的錯誤容忍度不如DTW來的佳,無論是音高不準確或是音長不穩定都會造成不小的影響,在哼唱正確的前提下才有較好的辨識效果。 為了改進LS的辨識效果,本篇論文提出兩種LS的變型:一種是分段式的線性縮放(segmented linear-scaling,SLS),另一種是以音符為基礎的線性縮放(note-based linear-scaling,NBLS),試圖解決使用者哼唱速度不一的問題。前者將旋律切成數段依序使用LS辨識;後者則是用音符長度為伸縮單位來進行LS,並且由此加以衍生,提出兩種方法分別稱為NBLS1和NBLS2。 本篇論文在實驗的部分觀察每種方法的辨識效果,討論他們的優點與缺點;並嘗試將DTW與其他方法進行結合,取彼此的長處,希望能夠提升只使用單一方法時的辨識率,並觀察兩者間是否存在某種關係,找出最佳的組合。除此之外,使用"人工標音"和"音高追蹤器所產生的音高"這兩種不同的測試資料進行實驗,觀察音高追蹤(pitch tracking)對辨識率的影響。 依據實驗的數據顯示,本文所提出的NBLS2確實改善了LS的缺點,有效的解決哼唱速度不一時容易辨識失敗的問題,雖然NBLS2的辨識效果沒有DTW來的優異,但是NBLS2運算所花的時間只有DTW的0.2倍,可說是損失些微辨識率卻大幅提升了辨識的效能。 最後我們將針對錯誤分析的結果提出我們改進的看法,並對本篇論文做一個結論。
Dynamic time warping (DTW) is a very effective method for query by singing/humming (QBSH), but it requires a lot of computation. On the other hand, linear scaling (LS) requires much less time on computation, but it is not as effective as DTW. As a result, in this thesis, our goal is to find new methods that can combine the advantages of DTW and LS for efficient and effective music retrieval in QBSH systems. Specifically, we have proposed two methods in this thesis, segmented linear scaling (SLS) and note-based linear scaling (NBLS). We have performed extensive experiments to demonstrate that the proposed methods can indeed combine the effectiveness of DTW and efficiency of LS to construct a more practical QBSH system. Conclusions and future work are also addressed in the thesis.