在有些半導體的問題上,礙於數據取得困難,或是資料共有、一致性的問題,都存在著待分析資料不足的問題,如何在數據量以及變數量的多寡上面的取捨,也是在使用統計分析時需要注意的一項重點。 面對龐大的資料,我們也作了篩選的動作,利用初步的統計方法,檢視出資料裡對我們應變數關係較明顯的幾個重要變數,藉由一個門檻值來篩選,如此一來,再作進一步分析時,所有變數一起做分析造成的數據量問題,便能夠得到改善。 我們為了解決數據量和機台數量的問題,使用了分群的方法,有效的將機台數量降低,使我們在利用統計方法建立模型時,不再為了變數量太多造成模型過度配適(over-fit)的問題所困擾。