透過您的圖書館登入
IP:13.58.60.192
  • 學位論文

植基於網頁結構的資料區塊化自動分類

Automatic Identification of Data Blocks based on Web Page Structure

指導教授 : 蔡憶佳

摘要


網際網路發展至今的普及化,再加上使用者瀏覽行為的改變,許多資料內容的取得已漸漸地從紙本轉移至網際網路上,如:新聞網站資訊的提供就是一例。然而,隨著網際網路資訊量愈來愈多,使得自動化資料收集的機制成為一個不可或缺的重要工具。 目前一般資料收集的方法,除了網站有提供Really Simple Syndication(RSS)機制可供用戶訂閱之外,其餘便是以特定程式分析網頁結構的方法取得網頁資料,但若當網頁視覺結構改變時,那麼分析網頁程式便得重新改變。因此,本篇論文希望提出一個可自動化分析網頁結構的方法,經由分析網頁結構,找出網頁結構樣式,並加以驗證後,使得該網頁結構樣式成為分析規則。 本文利用其分析規則,對實驗目的網站每一個小時擷取一次資料,並且比對資料更新的新聞項目,經驗證後本論文所提出的方法確實能自動化地分析網頁結構,並達到資料收集的目的。

關鍵字

網頁結構

並列摘要


The internet has been a major source of information. It has taken the place of paper and become the most popular medium, such as: News web sites. Therefore, developing an automatic data collection technology is very important. At present the Really Simple Syndication (RSS) is a general of data collection method for the users. Besides, it is use the specific program analysis web page structures to obtain the web page information. When the web page changed, the program must be rewritten. Therefore, this paper provides an automated analysis web page structure method. Using this method find the web page pattern and approved it can be the rule. It has been tested in automatic collection of web page data.

並列關鍵字

web page structure

參考文獻


[1] Li Qingcheng and Li Youmeng, Extracting Content from Web Pages Based on RSS. 2008 International Conference on Computer Science and Software Engineering, WWW2008, pp. 218-221, Wuhan, Hubei, Dec 12-14, 2008
[2] http://zh.wikipedia.org/zh-hant/RSS
[3] http://zh.wikipedia.org/zh-tw/Atom
[4] S. Yu, D. Cai, J.-R. Wen, and W.-Y. Ma. Improving pseudo-relevance feedback in web information retrieval using web page segmentation. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 11-18, Budapest, Hungary, May 20-24, 2003.
[5] Y. Chen, W.-Y. Ma, and H.-J. Zhang. Detecting web pages structure for adpative viewing on small form factor devices. In Proceedings of the Twelfth International World Wide Web Conference, WWW2003, pp. 225-266, Budapest, Hungary, May 20-24, 2003.

延伸閱讀