透過您的圖書館登入
IP:18.221.187.121
  • 期刊

部落格本文自動萃取機制

An Automatic Blog Text Extraction Mechanism

摘要


在部落格快速發展的時代,部落格上的資訊越來越多且具有參考價值,部落格文字內容探勘已成為網頁探勘研究的重要分支。要能自動化讀取部落格的文字內容,必須正確的找出描述本文的網頁標籤。本研究提出「網頁標籤文字相對比例法」,找出最有可能的本文標籤,此技術運用文件物件模型(DOM; document object model)的概念並透過網頁爬行器自動萃取部落格本文。經過實驗說明,本研究所提供的部落格本文自動萃取機制,能正確的過濾雜訊,找出本文標籤。

並列摘要


In the era of blog, more and more useful information is shared on blogs. Mining text on blogs has become one of important and novel research directions in the filed of web mining. For an automatic blog text mining system, it is necessary to locate the tags which describe the main concepts of blog text effectively and efficiently. This research uses the technique of relative proportion of text and tag in order to find the most possible tag for main blog text. More particularly, we use the concept of DOM (document object model) through the java crawler to analyze the relationship between text and tag. According to our experiments, our automatic blog text extraction mechanism is able to extract the main text of blog effectively and efficiently.

參考文獻


Geng, H.,Gao, Q.,Pan, J.(2007).Extracting content for news web pages based on DOM.IJCSNS International Journal of Computer Science and Network Security.7(2),124-129.
吳志宏(2003)。以隱性回饋為基礎的自動化推薦機制(碩士論文)。朝陽科技大學。
黃高彬(2008)。部落格之精華文章自動收錄系統(碩士論文)。南台科技大學。
侯嘉昌(2009)。知識工作者藉由部落格進行知識分享對壓力紓解之影響研究(碩士論文)。大同大學。
Kumar, R.,Novak, J.,Raghavan, P.,Tomkins, A.(2004).Structure and evolution of blogspace.Communications of the ACM.47(12),35-39.

被引用紀錄


鍾瑞嘉(2017)。一個以集成為基礎的口碑情感分類框架〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201700906
林政輝(2010)。以口碑為基礎之個人化餐廳推薦機制〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201000594
卓文福(2014)。旅遊網頁觀光目的地意象之內容分析工具研究〔博士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2014.01561

延伸閱讀