  • 學位論文


Query System for Keyword History via PubMed Literatures

指導教授 : 王經篤


傳統使用網際網路來搜尋相關文件, 大都由使用者輸入關鍵字到搜尋引 擎去查詢, 然後, 搜尋引擎根據重要性來顯示相關文件, 提供給使用者參考。 利用這種傳統查詢方式, 使用者很難去觀察隱含在這些與關鍵字相關事件的 流行趨勢。但是, 大部分的文件都具有時間標籤(TimeStamp) , 若能善加 利用這些時間標籤, 我們可以藉此觀察關鍵字在不同的連續時間區間的出現 次數, 瞭解與該關鍵字相關事件的流行趨勢。本研究利用類似搜尋引擎中, 反向索引(Inverted-Index) 的技術, 計算每個字在各連續單位時間中的出 現次數, 作為該字的歷史序列(時間序列) 。對於處理大量文件資料所面臨的 計算與儲存的問題, 本研究利用分割和克服(Divide and Conquer) 的方 法, 先將大量原始文件資料, 根據時間先後次序, 分割成的許多較小時間單 位(如: 每月) 的檔案, 分別計算出每個字在每個小單位時間的出現次數, 然後, 再將其合併成每個字在每個大單位時間(如: 每年12個月) 的歷史序 列。最後, 再合併成以每個字為單位的完整歷史序列, 來提供給使用者查詢 關鍵字的流行趨勢。實驗採用從西元1990年到2007年的PubMed 文獻原始 資料(共3; 183; 196筆) , 從中抽取出共1061946字的歷史資料。使用者可 以透過網際網路, 輸入關鍵字來查詢該字的歷史序列, 其中圖表是利用Google Chart API 所提供雲端計算之介面來呈現,實驗結果顯示, 利用關鍵字的歷 史序列, 可以觀察許多有趣事件的趨勢變化。


Search the Internet in the way of relevant documents, mostly input keywords to the search engine to query , and then, according to the importance of search engine To show the relevant documents available to the user. Using this transfer System check mode, it is difficult to observe and keyword-related events Trend. However, most of the documents have TimeStamp, if we can use the TimeStamp of documents, We can observe the keyword to a different continuous time interval Number of occurrences, understanding and the keywords related events and trends. In this study, we use a technology of Inverted-Index like search engine to use, computing time for each word in each unit The number of occurrences, as the termhistory. On the other hand, the In a large number of documents dealing with the calculation and storage of facing the problem of We use the Divide and Conquer algorithm method, first a large number of original documents, according to the time divided into many smaller units of time (monthly) file, and then marge termhistory of small units into large units (annually) Order termhistory. In experiment, we use PubMed literature and will be a long time A lot of literature, the termhistory of keywords into the use of Can provide through the Google cloud computing the interface, Enter keywords used to query the historical series, converted into charts Presented in a way showed that the use of the historical sequence of keywords, We can observe the trend of events related to the change.


TermHistory TextMining Trend Analysis


