個人化語言處理：語言模型及理解

隨著網路世代巨量資料的產生以及機器學習技術的發展，語音助理等多種語音技術的應用不再只是創造噱頭的玩具，而是藉由強大的辨識能力以及持續進步的理解能力進入這一世代人的生活中。今日大公司利用大量的語音資料以及龐大的運算資源在雲端伺服器建立一個通用的語音辨識系統以服務所有使用者，每天有成千上萬的使用者使用同一套通用語音技術，一部分的使用者得到令他們滿意的服務，一部分的使用者卻因為通用語音技術無法正確辨識或理解而感到挫折，其中一個可能原因是因為使用者的語句中參雜了帶有個人特色的說話習慣，例如口頭禪、流行用語、特殊主題、領域的用詞，或是朋友的名字等，與辨識或理解模型無法合理匹配。解決這些問題的方法正是替每一位使用者建立帶有個人特色的說話習慣的專屬個人語音技術，以解決通用模型辨識及理解能力不足的問題。本論文針對語言處理的部分，使用由社群網路蒐集獲得的語料進行處理，藉由這些少量的個人化資料學習出每個使用者不同的用詞習慣以及語言特徵，幫助個人化語音處理以及語意理解。本論文首先針對語音辨識系統中的語言模型加以個人化，藉由深層類神經網路，從個人化資料中抽取出代表使用者語言特徵的向量，利用使用者特徵將通用語言模型加以個人化來提高辨識正確率；再者，本論文也針對表示語意的詞向量加以個人化，使得相同的詞在不同的使用者事實上帶有略不相同的語意，更能貼近使用者想要表達的意思，以提升個人化語音處理及語意理解的能力。希望能夠藉由這兩個方向的個人化，補足通用語音辨識技術的不足，提升語音處理的使用者體驗。

關鍵字

個人化語言模型；個人化詞向量；自然語言處理；語音辨識

並列摘要

無資料

並列關鍵字

Personalized Language Model ； Personalized Word Representation ； Natural Language Processing ； Speech Recognition

參考文獻

[1] Hung-Yi Lee, Bo-Hsiang Tseng, Tsung-Hsien Wen, and Yu Tsao, “Personalizing recurrent-neural-network-based language model by social network,” IEEE/ACM Transactions on Audio, Speech and Language Processing (TASLP), vol. 25, no. 3, pp. 519–530, 2017.

[2] John Paolillo, “The virtual speech community: Social network and language variation on irc,” Journal of Computer-Mediated Communication, vol. 4, no. 4, pp. 0–0, 1999.

[4] Tomas Mikolov, Martin Karafia ́t, Lukas Burget, Jan Cernocky`, and Sanjeev Khu- danpur, “Recurrent neural network based language model.,” in Interspeech, 2010, vol. 2, p. 3.

[5] Bo-Hsiang Tseng, Hung-yi Lee, and Lin-Shan Lee, “Personalizing universal recurrent neural network language model with user characteristic features by social network crowdsourcing,” in Automatic Speech Recognition and Understanding (ASRU), 2015 IEEE Workshop on. IEEE, 2015, pp. 84–91.

[6] Tsung-Hsien Wen, Aaron Heidel, Hung-Yi Lee, Yu Tsao, and Lin-Shan Lee, “Recurrent neural network based personalized language modeling by social network crowdsourcing,” in Proc. Interspeech, 2013.

國際替代計量

個人化語言處理：語言模型及理解

全文下載

主題瀏覽