透過您的圖書館登入
IP:18.226.251.210
  • 學位論文

語音文件中關鍵用語之自動擷取及其關係圖之自動生成

Automatic Key Term Extraction and Key Term Graph Generation from Spoken Documents

指導教授 : 李琳山

摘要


本論文研究語音文件中關鍵用語之自動擷取及其關係圖之自動生成。本論文將關鍵用語分成關鍵片語(Key Phrase) 和關鍵詞(Keyword),並用不同方法來擷取。在擷取關鍵片語部分,我們提出了分岐亂度(Branching Entropy)。在擷取關鍵詞的部分,我們提出了二階段擷取(Two-Stage Extraction) 的方法,其中第一階段(First-Stage) 利用相對連貫性計算(Relative Coherence Measure; RCM) 取得關鍵詞的初始排序(Initial Ranking),並以網路知識為輔助;第二階段(Second-Stage)則利用第一階段得出的初始排序,從語音文件中抽取候選關鍵詞的詞彙特徵(Lexical Feature)、韻律特徵(Prosodic Feature) 以及語意特徵(Semantic Feature),再透過機器學習方法訓練分類器,得到關鍵詞的重排序(Re-Ranking)。 有了關鍵用語,我們進一步利用機器學習方法訓練分類器(Classifier) 來自動 判別兩兩關鍵用語之間的關係以生成關係圖,包括抽取詞彙特徵、語意特徵以及網路知識特徵(Feature from Web Knowledge) 以描述關鍵用語之間的關係, 發現這些特徵是可加成的, 並提出一個評比關係圖的方法。

參考文獻


probabilistic latent semantic analysis (PLSA) with further analysis and integrated
[2] F. Liu, F. Liu, and Y. Lin, “Automatic keyword extraction for the meeting corpus
Information Retrieval, 1999.
[4] George Kingsley Zipf, Human behavior and the principle of least effort, Addison
Wesley, 1949.

延伸閱讀