透過您的圖書館登入
IP:44.192.73.68
  • 學位論文

整合二進制粒子群最佳化與遺傳演算法之特徵選擇於文件分類

INTEGRATING BINARY PARTICLE SWARM OPTIMIZATION AND GENETIC ALGORITHM FOR FEATURE SELECTION IN TEXT CLASSIFICATION

指導教授 : 楊燕珠
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


文件分類的方法主要是使用文件特徵的相似程度來判定,而文件特徵主要是以頻率高者為挑選的基準,但頻率高的特徵不見得有分類鑑別力,雖以「反向文件頻率」可以將沒有區別力的特徵之計算權重降低,但也無法完全解決此問題。於是90年代開始了特徵選擇的研究,主要是以統計的方法,如:Information Gain (IG)、Mutual Information (MI)、χ2 (CHI-Square) 等各種衡量標準,訂出門檻,將超過門檻、即具有分類區別力的特徵挑選出來。最近幾年則有些將遺傳演算法(Genetic Algorithm, GA)、蟻群最佳化(Ant Colony Optimization, ACO)與粒子群最佳化(Particle Swarm Optimization, PSO)等演化式演算法應用於特徵選擇的研究,找出最佳的特徵組合,使得以該特徵組合進行分類,能獲得最高正確率,研究結果顯示較統計的方法優越。 PSO具備自我認知與社會群體之學習記憶的搜尋,能夠更快速搜尋出較以往更佳的解,在演化初期收斂速度較快,但是到了後期卻容易因為粒子逐漸往搜尋空間的最佳解靠近,導致無法完整搜尋整個粒子空間,因而陷入區域最佳解。為了找出全域最佳解,本研究提出將二進制粒子群最佳化 (BPSO) 與遺傳演算法整合的特徵選擇演算法,將BPSO演化後的粒子群作為GA母體,粒子收斂或停止時的解,為染色體初值,使得GA初值並非亂數,而是一些不錯的染色體,進行複製、基因交配、基因突變後,讓原本PSO的解能夠因為突變獲得跳出局部最佳解的機會,並結合適者生存的遺傳原則,將弱勢粒子淘汰,期望能獲得全域最佳解。 以本研究所提出的方法所得的特徵組合,進行文件分類,將可提升文件分類的正確率。未來可應用於企業或組織內部文件分類,或社群網站的分類等,使得文件易於管理和維護,而使用者也更容易閱讀和收集所需資訊。

並列摘要


Feature selection has been proved to be very important for classification. There are some statistical approaches, such as Information Gain, Mutual Information, andχ2, etc. The features are measured one by one, therefore the inference of combination of features is not considered. In recent years, the evolution-based computing algorithms have been involved in feature selection to search the best combination of features. This research presents a feature selection algorithm integrating Binary Particle Swarm Optimization and Genetic Algorithm for Text Classification. The objective is to find the global optimal features for high dimensional data classification, especially for text classification.

參考文獻


[24] 楊燕珠、陳志豐,基於高頻項目集結合近似樣式匹配之文件分群 Document Clustering Based on Frequent Itemset Integrated with Approximate Pattern Matching,資訊管理學報,第十六卷 專刊,Jan. 2009,pp.165-184。
[23] 楊燕珠、王千豪,基於近似詞彙樣式匹配之主題式文件分群 Thematic Document Clustering Based on Approximate Word Pattern Matching,CIMP 2007第13屆海峽兩岸資訊管理發展與策略學術研討會,Aug. 2007,pp.388-393。
[20] Yang, Yiming and Pedersen, Jan O.,” A Comparative Study on Feature Selection in Text Categorization,” in Proceedings of the 14th International Conference on Machine Learning,1997, pp. 412-420.
[1] Aghdam, M.H., Ghasem-Aghaee, N., and Basiri, M.E., “Application of Ant Colony Optimization for Feature Selection in Text Categorization,” IEEE Congress on Evolutionary Computation, 2008.
[3] Brill, Frank Z., Brown , Donald E., and Martin, Worthy N. , “Fast Genetic Selection of Features for Neural Network Classifiers,” IEEE Transactions on Neural Networks, Vol. 3, No. 2, March 1992, pp.324-328.

被引用紀錄


蔡依恬(2014)。應用量子電荷演算法求解最佳化短期火力機組排程〔碩士論文,國立臺北科技大學〕。華藝線上圖書館。https://doi.org/10.6841%2fNTUT.2014.00176
張淯詠(2013)。應用二進制粒子群演算法求解最佳化短期火力機組排程〔碩士論文,國立臺北科技大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0006-0608201313320900

延伸閱讀