誤解與挑戰：從語音辨識到口語理解

這一波的人工智慧狂潮襲來，幾乎衝擊到了每個應用領域[1]。但是究其源頭，卻是深度神經網路DNN (Deep Neural Network)技術在語音辨識跟影像辨識所獲致的效能大躍進。尤其是語音辨識更是第一個深度學習在大數據庫中取得突破的技術領域[2][3]；也是繼實驗室的成功之後，最早被帶到一般人日常生活中來的應用。不管是已經普及到每個人的智慧手機，還是預期未來將普及到每個家庭的智慧喇叭，上面都載有語音助理提供方便自然的語音互動介面。藉著這股人工智慧的狂潮，工研院口語技術團隊從2014年開始投入研發以DNN為聲學模型的口語辨識技術，辨識率也大幅躍升。本文將藉由介紹語音辨識與深度學習技術的發展，釐清一般人對語音辨識的誤，並說明未來口語理解的挑戰。