語音文件中關鍵用語之自動擷取及其關係圖之自動生成

本論文研究語音文件中關鍵用語之自動擷取及其關係圖之自動生成。本論文將關鍵用語分成關鍵片語(Key Phrase) 和關鍵詞(Keyword)，並用不同方法來擷取。在擷取關鍵片語部分，我們提出了分岐亂度(Branching Entropy)。在擷取關鍵詞的部分，我們提出了二階段擷取(Two-Stage Extraction) 的方法，其中第一階段(First-Stage) 利用相對連貫性計算(Relative Coherence Measure; RCM) 取得關鍵詞的初始排序(Initial Ranking)，並以網路知識為輔助；第二階段(Second-Stage)則利用第一階段得出的初始排序，從語音文件中抽取候選關鍵詞的詞彙特徵(Lexical Feature)、韻律特徵(Prosodic Feature) 以及語意特徵(Semantic Feature)，再透過機器學習方法訓練分類器，得到關鍵詞的重排序(Re-Ranking)。有了關鍵用語，我們進一步利用機器學習方法訓練分類器(Classifier) 來自動判別兩兩關鍵用語之間的關係以生成關係圖，包括抽取詞彙特徵、語意特徵以及網路知識特徵(Feature from Web Knowledge) 以描述關鍵用語之間的關係，發現這些特徵是可加成的，並提出一個評比關係圖的方法。

關鍵字

關鍵用語；關鍵詞；關鍵片語；語音文件；關鍵用語關係圖；機率式潛藏語意分析；機器學習；支撐向量機

並列摘要

無資料

並列關鍵字

Key Term ； Keyword ； Key Phrase ； Spoken Documents ； Key Term Graph ； Probabilistic Latent Semantic Analysis ； PLSA ； Machine Learning ； Support Vector Machine ； SVM

參考文獻

probabilistic latent semantic analysis (PLSA) with further analysis and integrated

[2] F. Liu, F. Liu, and Y. Lin, “Automatic keyword extraction for the meeting corpus

Information Retrieval, 1999.

[4] George Kingsley Zipf, Human behavior and the principle of least effort, Addison

Wesley, 1949.

國際替代計量

語音文件中關鍵用語之自動擷取及其關係圖之自動生成

全文下載

主題瀏覽