運用於Hadoop雲端運算的資料探勘混合編碼演算法

在現今的世界上資料探勘已經成為一項非常重要的研究，而在資料探勘的研究範圍中關聯式規則的尋找是其中主要的研究方向之一。在這篇論文中我們針對在關聯式規則的尋找中主要的一種演算法，Apriori演算法，來進行研究和改進。Apriori演算法在處裡大量資料時有一個嚴重的效能瓶頸，此效能瓶頸源於Apriori演算法在運作過程中所產生的大量過渡資料。然而不幸的是在現實的世界裡我們通常都必須要面對非常大量的資料。因此我們在這篇論文中提供一種混合式的演算法，混合了Apriori-like演算法中的TID Apriori演算法以及二進位的編碼方式。藉由混合這兩種演算法，我們在實驗之後得到相對於TID Apriori演算法以及Apriori演算法更好的效能。但是我們所提供的演算法仍然屬於Apriori-like演算法，依然有Apriori-like演算法所共有的效能瓶頸問題。為了克服此瓶頸問題我們將演算法以MapReduce programing model實作在Hadoop 環境上，藉此將我們的演算法平行化。關鍵字 : 資料探勘 , 關聯式規則 , 平行 , Apriori 演算法

關鍵字

平行程式；關聯式法則；資料探勘

參考文獻

[16] R. Agrawal and R. Srikant. Fast algorithms for mining association rules. In VLDB'94, pp. 487{499.

[1] Zhaoyang Qu , Shilin Zhang The WAMS Power Data Processing based on Hadoop

[2] Xin Yue Yang , Zhen Liu , Yan Fu MapReduce as a Programming Model for Association Rules Algorithm on Hadoop

[3] Jean-Daniel Cryans , Sylvie Ratt’e , Roger Champagne Adaptation of Apriori to MapReduce to Build a Warehouse of Relations Between Named Entities Across theWeb

國際替代計量

運用於Hadoop雲端運算的資料探勘混合編碼演算法

全文下載

主題瀏覽