文件分類的方法主要是使用文件特徵的相似程度來判定,而文件特徵主要是以頻率高者為挑選的基準,但頻率高的特徵不見得有分類鑑別力,雖以「反向文件頻率」可以將沒有區別力的特徵之計算權重降低,但也無法完全解決此問題。於是90年代開始了特徵選擇的研究,主要是以統計的方法,如:Information Gain (IG)、Mutual Information (MI)、χ2 (CHI-Square) 等各種衡量標準,訂出門檻,將超過門檻、即具有分類區別力的特徵挑選出來。最近幾年則有些將遺傳演算法(Genetic Algorithm, GA)、蟻群最佳化(Ant Colony Optimization, ACO)與粒子群最佳化(Particle Swarm Optimization, PSO)等演化式演算法應用於特徵選擇的研究,找出最佳的特徵組合,使得以該特徵組合進行分類,能獲得最高正確率,研究結果顯示較統計的方法優越。 PSO具備自我認知與社會群體之學習記憶的搜尋,能夠更快速搜尋出較以往更佳的解,在演化初期收斂速度較快,但是到了後期卻容易因為粒子逐漸往搜尋空間的最佳解靠近,導致無法完整搜尋整個粒子空間,因而陷入區域最佳解。為了找出全域最佳解,本研究提出將二進制粒子群最佳化 (BPSO) 與遺傳演算法整合的特徵選擇演算法,將BPSO演化後的粒子群作為GA母體,粒子收斂或停止時的解,為染色體初值,使得GA初值並非亂數,而是一些不錯的染色體,進行複製、基因交配、基因突變後,讓原本PSO的解能夠因為突變獲得跳出局部最佳解的機會,並結合適者生存的遺傳原則,將弱勢粒子淘汰,期望能獲得全域最佳解。 以本研究所提出的方法所得的特徵組合,進行文件分類,將可提升文件分類的正確率。未來可應用於企業或組織內部文件分類,或社群網站的分類等,使得文件易於管理和維護,而使用者也更容易閱讀和收集所需資訊。
Feature selection has been proved to be very important for classification. There are some statistical approaches, such as Information Gain, Mutual Information, andχ2, etc. The features are measured one by one, therefore the inference of combination of features is not considered. In recent years, the evolution-based computing algorithms have been involved in feature selection to search the best combination of features. This research presents a feature selection algorithm integrating Binary Particle Swarm Optimization and Genetic Algorithm for Text Classification. The objective is to find the global optimal features for high dimensional data classification, especially for text classification.
為了持續優化網站功能與使用者體驗,本網站將Cookies分析技術用於網站營運、分析和個人化服務之目的。
若您繼續瀏覽本網站,即表示您同意本網站使用Cookies。