基於整合特徵詞擷取方法的文件分類系統

在文件分類中，特徵擷取技術是一項極為重要的過程，因為該技術與分類器處理的正確性有著相當大的關係。當原有的文集非常龐大時，基於處理時間的考量，從原有的文集中選擇適當的特徵詞，對於減少處理的時間將更有幫助。我們經由對文件分類中特徵擷取技術的研究，發現先前的研究中，很少有研究能夠有效地結合特徵擷取技術，通常都是使用單一的特徵擷取技術，以計算特徵詞的權重。在本研究中，我們提出一套整合的特徵擷取方法，是結合了知名的mutual information (MI)和term frequency–inverse document frequency (TF-IDF)方法，以及改進的向量空間模型，為的是解決特徵空間維度過高的問題，以及改進文件分類的效能。此方法是先計算每一個特徵詞的MI值，以便從訓練資料集中區分出較不重要的詞，接著將每一個詞的MI值乘上自己的TF-IDF值，以進一步的加強較重要的詞的權重。本研究是應用於中文文件上，其中文件集是從台灣奇摩新聞網站中得到。經由實驗結果證實，我們提出的整合特徵擷取方法，其效能優於傳統的TF-IDF和MI兩項方法。

關鍵字

特徵詞擷取；文件分類；互消息

並列摘要

無資料

並列關鍵字

feature selection ； text classification ； Mutual information ； TF-IDF

參考文獻

training sample selection and feature weight adjustement," Advanced

[4] Jiangfeng Yang; Zheng Ma; , "Document Clustering based on mutual

BIBLIOGRAPHY 43

C.; , "Implementing News Article Category Browsing Based on Text

Categorization Technique,"Web Intelligence and Intelligent Agent Tech-

國際替代計量

基於整合特徵詞擷取方法的文件分類系統

主題瀏覽