  • 學位論文


Using Data Mining Techniques to Support Data Retrieval

指導教授 : 李維平


在網站大量成長的情形下,網路上的資料量也急劇的成長。要如何的幫助使用者更快速的找尋到所需要的資料或是將這麼大量的資料以方便使用者閱讀的方式呈現給使用者,已經成為一個重要的問題。 先前許多的研究中提出以分類或是分群的方式將資料加以整理成更方便使用者閱讀的形式。然而,研究中所提出的詞庫比對法、文法剖析法、或是統計分析的方法的方式對於目前變動快速的網際網路而言,必須要花費龐大的時間與人力來維護隨時變動的詞庫;同時網路上文件的數量每天都快速的增加,要將全部的文件透過詞庫內的詞庫一一的來進行比對,勢必也要花費許多的時間。此外,這樣的方式只是以內容導向來群集資料。 資料探勘是一種專門的技術,可在大量存放的資料中,找出先前並不知道,但最後可以有效理解的資訊,並可利用這些所找尋出來的資訊建立一個預測或分類的模型,透過這樣的過程所產生的資訊可協助決策者進行更週延的決策。近來有許多的研究將資料探勘的技術應用在網頁資料中來發覺有用的資訊稱之為網頁探勘。 本研究利用網頁探勘的技術,提出一種簡單可行的使用者導向之文件分群方法,只需要網站日誌檔中有關於使用者使用關鍵字與瀏覽紀錄即可達到文件分群的功能。以這樣的方式來進行資料的群集可以節省維護詞庫檔與處理文字段詞、統計詞類等等的人力與時間。而且透過研究提出之方法所產生的文件群集可以更直接的反應使用者的興趣與偏好。此外,以研究所提出的分群方法分群後的群集可以有一些使用者所使用的關鍵字詞來描述所分群產生的結果。透過實驗的分析觀察也發現,這樣的分群方法所產生之群集有一定程度的可描述性(正確性)。


The explosive growth of the Internet, and particular the World Wide Web, in recent years has put huge amounts of information at the disposal of anyone with access to the Internet. A problem facing information retrieval on the web is how to help user read easily. Clustering method is to group the data with similar features in clusters without needing predefined cluster labels. And Document Clustering or Document Classfy can help user read easily. In the past, clustering or classfy must extract keyword to descript this document. And keyword extract from document is a content-based clustering method. Data mining is a new technique that can discover something unknowledge from a mount of data. Recently some research is using data mining technique to find knowledge in the web named web mining. In our research, a new method for clustering Web Page is proposed. This method is using web mining technique to produce user-based clustering. A major advantage of this approach is that the relavency information is objectively reflected by the usage logs; frequent simultaneous visits to two unrelated documents should indicate that they are in fact closely related. By analysis sogi web’s log file, web page clustering is proposed, and the experiment result show that cluster having high percisioin.


4.Cooley, R., B. Mobasher and J. Srivastava, "Data Preparation for Mining World Wide Web Browsing Patterns," Journal of Knowledge and Information Systems, Vol. 1, No. 1, 1999, pp. 5-32.
6.Cooley, R., B. Mobasher and J. Srivastava, "Web Mining: Information and Pattern Discovery on the World Wide Web," Ninth IEEE International Conference on Tools with Artificial Intelligence, 1997, pp. 558 -567.
9.Fu, Y. and J. Han, "Discovery of Multiple-Level Association Rules from Large Databases," Proc, 21th Int'l Conf Very large Data Bases, Sept 1995, pp. 420-431.
