透過您的圖書館登入
IP:52.14.126.74
  • 期刊

網路文件自動分類

Automatic Network Documents Classification

摘要


隨著網路的蓬勃發展,網路上的資訊也相對增加,絕大多數使用過Internet的人,對網路上多采多姿的資訊,約會驚訝不已;但讚嘆之餘,使用者也會發現,大量且缺乏整理的資訊反而了造成更大的困擾。新資訊時代裡,最根本的問題之一就是:如何在浩翰如海的資訊空間裡,快速的找到並取得所需的資訊。 本論文提出一個適合網路文件自動分類的模型,藉以幫助使用者處理這些資訊。首先,我們使用網路資源蒐集程式將蕃薯藤搜尋引擎上的文件取回,接著使用這些已經具備分類特性的文件當作訓練文件,在機器中建立一個可以模擬人工的向量空間模型。再由測試資料決定系統正確率。另外,鑑於Web文件提供了超文件連結的特性、HTML TAG標籤加註的功能,我們充分利用這兩項特性,設計實驗方法,藉以提昇系統分類能力。 實驗結果顯示我們提出的方法在13個法本類別條件下,可以正確辨識文件集合中71.2%的文件,辨識錯誤的文件有24.3%,另外有4.5%的文件是屬於無法辨識的文件。

並列摘要


As WWW becomes increasingly popular, more and more Chinese documents have been placed in the web, and so a classification of the documents is often useful in helping the users to find an appropriate document. In this paper, we propose and build an automatic web document classification system. This system learns its classification skill from the well-known YAM search engine site, whose documents are classified manually by a group of experts. The system also takes the advantage of web tags such as links, highlighting, and document structures to enhance the certainty of classification. Our experiments show that, given a system of 13 disjointed classes, the proposed scheme can correctly classify 71.2% of the documents. For the rest of the documents, 4.5% of them cannot be classified, and 24.3% of them will be mis-classified.

參考文獻


Aboud, M., Chrisment, C., Razouk, R., Sedes, F., Soule-Dupuy, C.(1993).Querying a Hypertext Information Retrieval System by the use of Classification.Information Processing & Management.29(3)
Broder, Andrei Z., Glassman, Steven C., Manasse, Mark S.(1997).Proc. of the 6th Int'l. World Wide Web Conference.
Charniak, Eugene(1993).Statistical Language Learning.Massachusetts Institute of Technology.
Croft, W. Bruced, Turtle, Howard R.(1993).Retrieval Strategies for Hypertext.Information Processing & Management.29(3)

被引用紀錄


許邦輝(2006)。以主成分分析法為基礎之文件自動分類模式〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2006.00017
林承洋(2014)。利用領域概念與口碑評價改善文章情感分類〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201400907
李瑞男(2014)。應用資料探勘分類技術進行文件推薦 -以博碩士論文系統為例〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201400434
陳玉鳳(2008)。發展以語意規則為基礎的新聞分派系統〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu200900502
Suping, C. (2004). 以類神經網路技術建構飛機故障自動分類系統 [master's thesis, Chung Yuan Christian University]. Airiti Library. https://doi.org/10.6840/cycu200400704

延伸閱讀


國際替代計量