透過您的圖書館登入
IP:18.220.126.5
  • 學位論文

基於整合特徵詞擷取方法的文件分類系統

A Text Classification System Based On Integrated Feature Selection Approach

指導教授 : 張適宇
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


在文件分類中,特徵擷取技術是一項極為重要的過程,因為該技術與分類器處理的正確性有著相當大的關係。當原有的文集非常龐大時,基於處理時間的考量,從原有的文集中選擇適當的特徵詞,對於減少處理的時間將更有幫助。我們經由對文件分類中特徵擷取技術的研究,發現先前的研究中,很少有研究能夠有效地結合特徵擷取技術,通常都是使用單一的特徵擷取技術,以計算特徵詞的權重。在本研究中,我們提出一套整合的特徵擷取方法,是結合了知名的mutual information (MI)和term frequency–inverse document frequency (TF-IDF)方法,以及改進的向量空間模型,為的是解決特徵空間維度過高的問題,以及改進文件分類的效能。此方法是先計算每一個特徵詞的MI值,以便從訓練資料集中區分出較不重要的詞,接著將每一個詞的MI值乘上自己的TF-IDF值,以進一步的加強較重要的詞的權重。本研究是應用於中文文件上,其中文件集是從台灣奇摩新聞網站中得到。經由實驗結果證實,我們提出的整合特徵擷取方法,其效能優於傳統的TF-IDF和MI兩項方法。

並列摘要


無資料

參考文獻


training sample selection and feature weight adjustement," Advanced
[4] Jiangfeng Yang; Zheng Ma; , "Document Clustering based on mutual
BIBLIOGRAPHY 43
C.; , "Implementing News Article Category Browsing Based on Text
Categorization Technique,"Web Intelligence and Intelligent Agent Tech-

延伸閱讀