在這篇文章中,我們主要是將SCM演算法應用在微陣列(microarray)或稱基因微陣列上,發現SCM演算法具有「過濾比較不具分群資訊的基因向量」的功能,可用來除去資料中對陣列部分不具分群資訊的基因向量,而且原始資料中含有的重要訊息還是保留在我們所篩選過的資料內,並發現將此透過SCM演算法(取最佳Gamma值的 )自我組織後的資料,配合Michael B. Eisen 的Cluster 以及 Tree-View兩個軟體得到的資料分佈顏色圖能直接提供給研究人員觀察出可能的群數,而Michael B. Eisen 的Cluster卻無法提供「過濾比較不具分群資訊的基因向量」以及「清楚由資料分佈顏色圖判斷可能叢集數」的功能。所以我們建議微陣列資料做資料分析前,若能先運用SCM演算法,再使用Michael B. Eisen 的Cluster 以及 Tree-View得到的分析圖,將會提供研究人員更多資訊。 我們並將SCM演算法利用Matlab程式語言建立成一個Matlab的子程式,增加其使用的方便性,並利用此子程式比較同一筆資料的兩種情況:沒有經過SCM演算法處理產生的樹狀圖與經由SCM演算法(最佳Gamma值)後再產生的樹狀圖,兩者間顯著的差異性,發現經由SCM演算法(最佳Gamma值)後產生的樹狀圖很明顯讓使用者能清楚判斷出叢集群數。
The Similarity-Based Clustering Method (SCM) is applied on Microarray in this thesis. The results demonstrate that SCM has a special function that can dispose of non-cluster gene vectors and still keep the important message in the remaining data. In addition, we combine SCM with two softwares, Michael B. Eisen’s Cluster and Tree-View, so that it can produce the colorful data distribution graph, and can be an easier tool to observe possible clusters for researchers. Overall, we suggest that SCM should be used with Michael B. Eisen’s Cluster and Tree-View to offer better analysis for Microarray data. Besides, a subprogram is developed in Matlab to facilitate the usage of SCM. Two conditions are compared by this subprogram for the same source data. The first one is the tree graph without SCM while the second one is the tree graph with SCM (the best Gamma value). There are significant differences between the two conditions. The tree graph produced with SCM (the best Gamma value) can help the users recognize the clusters more obviously and easily.