透過您的圖書館登入
IP:18.220.81.106
  • 學位論文

順序型變數轉換在決策樹之應用

Transformation of Ordinal Variables with Applications in Decision Trees

指導教授 : 陳景祥

摘要


在資料探勘的實務分析中,我們常會遇到順序型尺度變數。順序型變數大都是研究員為求方便,將連續型變數進行切割、區間化轉換後產生。轉換後的順序型變數常會因為訊息的縮減而喪失原本連續型變數的完整資訊。此外,一般研究中分析順序型變數時,傳統的做法是直接將其視為連續型變數看待,兩者既然沒有同等的資訊卻混為一談,這樣的作法欠缺熟慮。因此,本研究利用輔助變數以及平面座標的概念,提出順序型變數的轉換方式,使用歐氏距離的方法將原本的順序型變數轉換成擬連續型變數並予以加權,以減少順序型變數所造成的資訊損失。我們也將轉換結果套用到CART、C4.5以及QUEST三種決策樹方法進行比較,結果顯示轉換後的擬連續變數確實能夠有效提升決策樹的分類準確率,代表轉換後的擬連續變數可以有效的彌補原本順序型變數所喪失的資訊。

並列摘要


In empirical data mining analysis, we need to handle ordinal-scale variables frequently. Also, many ordinal variables are often generated by researchers from continuous variables for convenience by grouping observed values into intervals, but some of the information contained in the original continuous variable will be lost. On the othe hand, when analyzing ordinal variables with numeric coding, people used to treat them as continuous variables, regardless of their differences in the amount of information.   We propose a transformation method of ordinal variables into quasi-continuous variables by means of surrogate variables, concept of coordinates, and Euclidean distances. Our method expects less information loss than the traditional practice which uses only ordinal information. Our transformation method is then applied to three decision tree algorithm: CART, C4.5, and QUEST. With several real-world data sets, our study shows that the transformed Quasi-continuous variables can efficiently enhance classification accuracy rate of these decision trees.

參考文獻


1. 蔡孟娟(2005)。<決策樹法在垃圾郵件過濾之應用>,私立淡江大學統計學系應用統計研究所碩士論文。
4. 陳婷婷(2009)。<以資料探勘技術分析拍賣網站數位相機購物消費行為>,私立淡江大學統計學系應用統計研究所碩士論文。
2. 葉采羚(2006)。<垃圾郵件過濾:資料採礦與中文斷詞技術之應用>,私立淡江大學統計學系應用統計研究所碩士論文。
3. 陳慈慧(2009)。<以近期購物的連(Run)特徵修正RMF模型>,私立淡江大學統計學系應用統計研究所碩士論文。
5. 洪惠萍(2009)。<以非對稱權重矩陣改善順序型分類器之績效評估指標>,私立淡江大學統計學系應用統計研究所碩士論文。

被引用紀錄


沈彥廷(2012)。資料複雜度指標對資料探勘分類技術的影響〔碩士論文,淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2012.00231

延伸閱讀