資料探勘與機器學習的技術廣泛地運用在很多不同的領域,各式各樣不同的資料分為數值資料、名目資料等等,許多研究中會使用名目資料來做分類及分析,並沒有探討當原始資料為名目資料時,其資料大小是否會對於分類結果產生影響,因此,本研究採取許多分類方法的應用,支援向量機(Support Vector Machine, SVM)、倒傳遞網路(Back-Propagation Network, BPN)、決策樹(Decision Tree, DT)為近年來廣泛使用且不錯的技術,及判別分析(Discriminant Analysis, DA)與邏輯斯迴歸(Logistic Regression, LR),資料來源自中央研究院研究專題調查中心的學術調查研究資料庫(SRDA),此資料庫中有許多分類,本資料屬於醫藥衛生學門的台灣地區成年和老年民眾有關慢性病的認知與預防行為研究,本研究希望透過更改名目資料的方式,瞭解名目資料的大小是否影響其分類方法的準確率,為了探討資料改變對於五種分類方法的變化,先將資料分為四個模式,將資料以等比例縮小十分之一作為模式一,原始資料作為模式二,資料以等比放大十倍作為模式三,模式四則隨機挑選函數組合來變化數值進行放大的效果,探討名目資料表示法對分類結果影響之分析。實驗結果顯示在各種技術的應用上,支援向量機的分類結果在各個模式下,擁有最佳的準確率,會擁有較佳的準確率。
Medical and hygienic data analysis is vital to our health and environment. Data mining techniques is widely used in analyzing everyday problems. Although, many researches use nominal data, the effects from data sizes have not been widely investigated. In this paper, we use support vector machine (SVM), back-propagation network (BPN), decision tree (DT), discriminant analysis (DA), logistic regression (LR) and four different models of data resizing process to examine the influences of classification accuracy from nominal data sizes. The medical and hygienic data are retrieved from survey research data archive (SRDA) from Academia Sinica of Taiwan, which are mostly researches on how well adults and elders acquire the knowledge and prevention of chronic diseases. Experiments show SVM outperformed in all four models and models that are resized smaller have an averagely higher accuracy.