讓機器從聲音的訊號去了解周遭的環境以及當下發生的事件,在人工智慧發展的版圖中是一塊不可或缺的拼圖,而該方法通常被稱作機器聽覺。人類的聽覺感知系統不只能夠可以理解人說話的聲音還有辨認各式各樣樂器的聲音,甚至還可以區別動物發出的聲音,大自然的聲音和日常生活中各種周遭的聲音。利用機器聽覺,我們可以更好的應用人工智慧到各式各樣的場景中,像是智能監控、智能工廠、智能城市,智能汽車等等。近幾年來,藉由深度學習的發展,除了辨識說話或者樂器的聲音之外,辨識日常生活中的各式各樣的聲音事件已經有了很大的突破跟發展,目前大部分研究的架構都是利用強標注資料建構基於一個全監督式的深度學習方法,然而大部分在聲音事件辨識的標註資料都缺乏詳細的時間標籤,因為標註這樣的資料成本非常高。利用弱標註資料建構聲音事件識別系統,本篇論文完成了四項主要貢獻。首先第一個貢獻是,我們提出專注式的監督學習方法去訓練一個深度神經網路,該方法可以只利用弱標記的資料去訓練深度神經網路,並且識別是否有非常短暫的聲音事件出現在一段長的聲音片段裡,然而在實際應用中,弱標記資料只有提供聲音事件是否有出現在片段中,並沒有該聲音事件發生的起始跟結束時間,這樣的資料會導致模型去忽略辨認那些出現非常短暫的聲音事件。為了解決這問題,我們提出的專注式的監督學習方法,可以讓模型不只識別是否有出現該聲音事件,也強化深度神經網路去學習那些只利用出現該聲音的片段的特徵去訓練,而不是拿所有的片段。實驗結果顯示我們提出的深度神經網路M&mnet可以很好的識別非常短暫的聲音事件,並且在一個巨量的弱標記聲音事件資料庫AudioSet達到目前最好的精確度。第二個貢獻是,如何讓聲音事件識別系統可以去很好的識別新的聲音事件,即使只有非常少量的標記資料,這樣的情境在真實的情況是非常關鍵的,因為在實際的應用中並不是所有的聲音事件都有大量的標註資料,目前大多數的聲音事件識別系統都依賴全監督式的學習方法,當訓練資料非常稀少的時候,這樣的訓練方式會導致深度神經網路訓練的時候過於擬合。因此我們結合所謂的少樣的本學習方式到深度神經網路,並且提出注意力式的相似度,讓深度神經網路可以專注在那些重要的片段去辨識聲音事件,特別地去識別短暫的聲音事件,當我們使用弱標記資料的時候。實驗的結果顯示我們提出的專注式的相似度可以很好的提升在少樣本聲音事件識別系統的精確度。第三個貢獻是,如何只利用弱標記的聲音事件資料去預測聲音事件出現與結束的時間,在實際的應用中,大部分公開的強標註的聲音事件資料都非常少,所以很難應用到真實環境中,為了克服這個問題,我們提出一個弱監督式的學習架構,去訓練一個深度神經網路,只需要利用弱標記的資料庫去訓練深度神經網路,就可以達到預測聲音事件出現與結束的時間,在一個應用在智能汽車的弱監督式的聲音事件識別系統應用上,在聲音事件識別的項目中,一般深度學習的模型在F-score評估方法上只能達到19.8%,而我們的方法可以達到53.8%,而在聲音事件偵測的項目中,一般的模型只能達到11.4%,而我們的方法可以達到32.8%。最後我們嘗試建立一個快速且精準的抗躁的聲音事件識別系統,並且能真的應用在真實環境的背景噪音中,這樣的聲音識別系統不只可以辨識聲音事件在吵雜的環境噪音中,也可以部署該系統到行動端的裝置或者嵌入式的設備上,使用大量的噪音資料庫,並且結合多條件的訓練方式還有特別設計的深度神經網路架構,我們可以讓深度神經網路可以很好的提升聲音事件辨識率在真實的環境中,並且只需要少量的模型參數量,我們的實驗結果發現,比起Samsung在2018年底的旗艦手機的寶寶哭聲識別系統,我們的寶寶哭聲識別系統可以更好的偵測寶寶哭聲在各式各樣的環境噪音上,並且可以很順暢的跑在低設備成本的的樹莓派上。
Understanding the surrounding environment and ongoing events through acoustic cues, or the so-called ``sound intelligence,' is a critical piece of the Artificial Intelligence (AI) puzzle. Human is able to recognize not only the sounds of speech utterance or musical piece, but also animal sounds, natural sounds and common everyday environmental sounds. With sound intelligence, an AI can do much better in applications such as smart surveillance, smart city, smart car, and smart factory. As a result, recent years have witnessed great and rapid progress in recognizing various sound events in daily environments. Most current research proposes a framework based on fully-supervised deep learning techniques using strongly labeled data. However, the labeled data for sound event recognition generally lack detailed annotations in time due to the high cost of the labeling process. This dissertation makes the following four contributions in recognizing sound events using weakly labeled data. First, we propose an attention-based model that recognizes transient sound events relying on only weakly labeled data. This task is challenging because weakly labeled data only provide annotations on the clip level, but some sound events appear only for a short period of time in an audio clip. We address this lack of detailed annotations with a novel attentional supervision mechanism that we propose. The resulting model, dubbed the M&mnet, outperforms all the other existing models on AudioSet, a collection of two million weakly-labeled audio clips released by Google in 2017. Second, we address the challenge to recognize sound events with only a few training examples of each class. This problem is critical in that fully-supervised learning algorithms cannot learn well when the data is sparse. We propose a novel attentional similarity module to guide the learning model to pay attention to specific segments of a long audio clip for recognizing sound events. We show that this module greatly improves the performance of few-shot sound recognition. Third, we propose FrameCNN, a novel weakly-supervised learning framework that improves the performance of convolutional neural network (CNN) for acoustic event detection by attending to details of each sound at various temporal levels. In the large-scale weakly supervised sound event detection for smart cars , we obtained a F-score 53.8% for sound event audio tagging, compared to the baseline of 19.8%, and a F-score 32.8% for sound event detection, compared to the baseline of 11.4%. Lastly, we attempt to build a noise-robust sound event detection model for mobile or embedded applications. We desire the model to be applicable in a real-world environment, with low memory usage and limited detection latency. By combining several state-of-the-art techniques in building deep learning models, we are able to implement a baby cry detector on the Raspberry Pi that can run in real time. We find that our model can effectively detect baby cries in various noisy conditions, whereas the baby cry detector available on the flagship smartphone of Samsung (as of late 2018) cannot.