關聯法則探勘 (Association Rule Mining, 簡稱ARM)為許多企業與研究希望從大量交易資料中找出感興趣的規則與樣型時常用的一種資料探勘 (Data Mining)模型,其中,由J. Han等學者在2000年所提出的FP-Growth演算法,因為只需進行兩次全資料庫掃描即可求得所有的高頻項目組 (Frequent Itemsets),大大的降低了原來ARM演算法中I/O存取成本過高的問題。然而當資料量增大時,FP-Growth演算法所需的記憶體空間會因此而提高,因此記憶體的容量成為FP-Growth演算法在分析效能高低的關鍵因素。 針對FP-Growth運算時會在資料增加時,因為記憶體不足而造成效能下滑的問題,我們提出以資料濃縮演算法的方式,將原始資料集進行前置處理後放入記憶體中,以減少資料存取成本,並且以J. Han [12]等學者所提出的partition-based projection概念為基礎所修改而來之FP-Subtree演算法進行運算,使運算過程中記憶體需求量能有效降低,並能完整保留原來資料集內之Frequent Pattern相關資訊。我們也建立起一個工作任務平行化的ARM架構,配合上述方法,使各運算節點 (工作站)的運算能力能充分發揮,有效提升系統整體的運算效率。
We proposed a data condensing algorithm of association rule mining (ARM) to solve the problem of the FP-Growth algorithm which gets the poor performance when the available physical memory capacity is less than required for working. By using the condensing algorithm and the FP-Subtree algorithm that inspired from the “partition-based projection” concept, we could reduce the working memory size of FP-Growth and I/O costs of ARM. In addition, we also developed a task-independent parallelized ARM system architecture, which could reduce the communicating costs during the entire process and makes the workstations in the system work more efficiently.
為了持續優化網站功能與使用者體驗,本網站將Cookies分析技術用於網站營運、分析和個人化服務之目的。
若您繼續瀏覽本網站,即表示您同意本網站使用Cookies。