在某些實際應用的問題中,有時候會面臨標記資料的取得成本相當昂貴,但為了不因樣本數較少而影響所建立的分析模型的表現,往往會同時採用訓練集中已標記和未標記的樣本來建立模型,透過增加模型建構的樣本數方式,以獲得較好的模型表現,而半監督學(semi-supervised learning)正是在此情境下被廣泛應用的策略,這類型的方法通常都是使用少量帶有標籤的樣本與大量未標記的樣本來訓練分類器。主動學習(active learning)是半監督式學習方法的一種,在分類器建立的過程中,一開始僅使用少量已知標籤的樣本來建立模型,之後透過適當的篩選方法,挑出對模型建構有幫助的未知標籤樣本,並利用即時查詢或詢問專家的方式來獲取新樣本的標籤,這類型的方法能夠降低分析資料取得標記類別的成本,非常適合用於處理標記所有樣本需要付出高昂代價的情境,如:洗錢帳戶的辨識、疾病診斷、基因資料的分析等。此外,Boosting演算法是ensemble learning 的一種,透過將數個弱分類器整合成一個強分類器的方式,用以獲得較好的分類模型,這類型的方法可以減少監督式學習中的偏差和變異。AUC (area under the ROC curve)代表的是ROC曲線下的面積,此指標被廣泛使用於評估分類器預測性能的表現。在本研究中,我們提出了一種針對二類分類問題的主動學習演算法,此方法結合Boosting的概念,並利用 AUC 挑選新樣本與作為boosting演算法中的權重。從模擬結果與實際資料分析來看,本研究所提出之方法可以採用較少樣樣本來建立模型,並實現較好的預測性能。
Because obtaining complete labeled data is quite expensively, we proposed an active learning algorithm to solve this problem. The proposed active learning algorithm includes two major parts. First, we use the AUC (area under ROC curve) as criteria to select new unlabeled sample, which will be added into the training set, and then the classifier will be re-trained in the next step. Second, we use the LogitBoost algorithm as the base classifier and modifie the weighs based on AUC resulting form considering predictive power as the goal. Moreover, when the data are large, it will take too much time to search all unlabeled samples and to find the most contributive one. Therefore, we use cluster analysis to reduce the samples firstly, then the proposed active learning algorithm is applied. The simulation results present that the proposed algorithm uses fewer samples and still can provide acceptable predictive performance. Three real applications were also used to evaluate the performance of the proposed method.