在文件分類中,特徵擷取技術是一項極為重要的過程,因為該技術與分類器處理的正確性有著相當大的關係。當原有的文集非常龐大時,基於處理時間的考量,從原有的文集中選擇適當的特徵詞,對於減少處理的時間將更有幫助。我們經由對文件分類中特徵擷取技術的研究,發現先前的研究中,很少有研究能夠有效地結合特徵擷取技術,通常都是使用單一的特徵擷取技術,以計算特徵詞的權重。在本研究中,我們提出一套整合的特徵擷取方法,是結合了知名的mutual information (MI)和term frequency–inverse document frequency (TF-IDF)方法,以及改進的向量空間模型,為的是解決特徵空間維度過高的問題,以及改進文件分類的效能。此方法是先計算每一個特徵詞的MI值,以便從訓練資料集中區分出較不重要的詞,接著將每一個詞的MI值乘上自己的TF-IDF值,以進一步的加強較重要的詞的權重。本研究是應用於中文文件上,其中文件集是從台灣奇摩新聞網站中得到。經由實驗結果證實,我們提出的整合特徵擷取方法,其效能優於傳統的TF-IDF和MI兩項方法。