  • 學位論文


The Analysis of Voluminous Citation Data – A Comparative Study

指導教授 : 陳宗天


隨著文獻資訊量的快速成長,引文分析的方法應運而生;利用引文分析,我們能夠對大量文獻進行處理,了解文獻間的相關性並且對文獻進行分類的動作,更可透過視覺化的方式呈現出該領域知識結構的關係,提供一個更簡單易懂的方法給使用者進行觀察與分析的動作。然而在一般使用引文分析的步驟下,往往因為資料量過大以及計算設備的限制造成無法對所有文獻以及引文資訊做運算,因此我們使用門檻值作為資料量縮減的方法:將不超過我們所設定之文章被參考次數或是參考次數的文獻刪除,再對符合條件的文獻進行下一步的引文分析。雖然這個方法可以有效的對資料進行過濾,使得引文分析的計算順利進行,但門檻值的設定卻是一個相當不科學的方法,我們很可能因為利用門檻值來對資料進行過濾的方法而將一些其實很重要的文獻排除在外,進而造成引文分析結果的不準確,是不是有比門檻值設定更好的方法來對大量的文獻及引文資訊進行篩選與過濾呢? 為了解決上述的問題,本研究利用鏈結分析中幾個常使用到的演算法,如HITS演算法及被使用在Google搜尋引擎上的PageRank演算法,對所有文獻及其引文資訊進行重要性的計算,再對計算後的文獻做排序,根據電腦設備可計算的範圍以及視覺化輸出的效果來進行資料量的過濾以及縮減,來取代以往引文分析中既有的門檻值方法,並透過實驗組(鏈結分析演算法)與對照組(門檻值)的引文分析分群結果的觀察以及視覺化輸出結果的比較,來評估兩者的優劣,判斷鏈結分析中有關節點重要性計算的演算法是否能取代門檻值而成為引文分析中更好的資料量縮減方法。 研究結果顯示,經由HITS演算法以及PageRank演算法計算選定資料集中所有資料的重要性並根據其權重大小過濾篩選後,其過濾後的目標子資料集與對照組所產生的結果不同,經由引文分析及視覺化輸出的步驟後也呈現出了不同的知識領域結構,分析其結果顯示了HITS與PageRank演算法應該是可以當作取代原有引文分析中門檻值使用的有效方法。


Citation analysis is a technique developed by information scientist, which is very useful in analyzing large amount of scientific literatures. Citation analysis technique has been applied in finding important seminal papers or revealing the intellectual structure of a knowledge domain. When the amount of literatures is too large to be handled by a computer, the number of literatures is usually reduced to a manageable size by pruning out less important papers. The pruning process is usually carried out by filtering out papers based on their citation count. Papers with a citation count lower than a, usually arbitrarily chosen, threshold are discarded, and the remaining papers are then analyzed using the citation analysis technique. Researchers have questioned how to decide the proper threshold value. The process of the threshold value derivation is rather un-scientific since the citation count may not be a good importance metric of a paper. We therefore use the link analysis algorithms – PageRank and HITS to help us rank literatures based on their importance metric. With a better measurement of importance, we may improve the process of traditional citation analysis by providing a better input data. The outputted intellectual structure should be better due to a better inputted data. We retrieved the experimental data from the online citation database CiteSeer. The experimental dataset contains some 7 hundred thousand papers and 2 million citation arcs. We built the intellectual structure using three different data reduction methods, the traditional threshold-based approach, the PageRank, and HITS method. The results obtained from these three approaches are then compared against each other. We found PageRank and HITS data deduction method resulted better outcomes. The result of PageRank and HITS is similar in many way.


