  • 學位論文


Evaluation of Query Expansion Method and On-line Search Engine on Concept Query of Information Retrieval Performance

指導教授 : 吳世弘


當資訊檢索的使用者不知道精確的關鍵字(keyword)時,可能會使用不精確的查詢關鍵字來描述其所需的訊息,嘗試著尋找正確的資訊。我們稱這些不精確的查詢關鍵字為概念查詢(concept query)。我們希望能夠評估線上搜尋引擎與資訊檢索研究者所研發的檢索系統的檢索效能。現有的資訊檢索測試集不適合用於評估概念查詢,因為目前標準的資訊檢索大型測試集,如TREC、CLEF、NTCIR,這些測試集所使用的典型的查詢主題(topic set)都包含了精確的查詢詞以及其主題說明,並不包含概念查詢。而且要提供線上搜尋引擎與一般資訊檢索系統一個一致性的評比環境是很困難的,因為面對的文件集不相同。 在本篇論文中,我們提出一個新的想法,利用公開的線上百科全書-維基百科(Wikipedia)的釋出資料(dump data),與線上搜尋引擎的指定網域搜尋的功能,讓線上搜尋引擎與一般非線上的資訊檢索系統有一個一致性的評比環境。並依據TREC、NTCIR等建置資訊檢索測試集的標準流程,來建構一個可以評估線上搜尋引擎與資訊檢索演算法的測試集,藉由蒐集真實世界使用者的概念查詢與精確的關鍵字,來作為測試集中的查詢主題。 在我們的檢索系統中,我們利用此測試集的鏈結結構特性,提出了兩種新的查詢擴展方法。第一種為使用維基百科來作為查詢擴展方法的同義辭典,並與虛擬關聯回饋的查詢擴展方法結合,我們稱此方法為維基百科查詢擴展。第二種為利用鏈結結構的特性,將鏈結分析演算法的概念加入查詢擴展演算法中,利用鏈出鏈結(Outward Link)與鏈入鏈結(Inward Link)找出查詢詞與文件間的關聯性,來幫助提升檢索效能,我們稱此方法為經由鏈結分析之查詢擴展方法。 實驗結果表明,本篇論文所建構的基於概念查詢的資訊檢索測試集,能夠合理的評估線上搜尋引擎,並且在概念查詢與精確的關鍵字檢索效能的比較,可以明顯的觀察到,概念查詢的檢索效能的確較差,並且我們發現,在使用概念查詢下,虛擬關聯回饋的檢索系統會優於主流的線上搜尋引擎,如:Google, Alta Vista。而在查詢擴展方法的部分,適當的使用維基百科查詢擴展方法的確是可以提升檢索效能,而且只使用維基百科查詢擴展與只使用虛擬關聯回饋查詢擴展間效能的比較,顯示利用維基百科作為查詢擴展的同義辭典是很好的資源。而經由鏈結分析的查詢擴展方法,其表現的效能並不如預期的佳,經由我們實驗的分析,認為經由統計為基礎的檢索方法其效能已經很好,而我們使用基礎的鏈結分析方法,並不足以提供更好的資源來提升檢索效能。


When the exact keyword is unknown to a user, he/she might use inexact query terms to describe the information needed and try to search for the right information. We treat these inexact query terms as concept queries. In our IR system, we use the link structure of Wikipedia and propose two new methods about query expansion to raise the performance of search. The first method is that the Wikipedia is regarded as thesaurus with query expansion and combine the query expansion with pseudo relevance feedback. We call this method for Wikipedia query expansion. The other is the link structure is used and add the link analysis to the query expansion. It uses the Outward Link and Inward Link to find out the relationship between query term and documents to raise the performance of retrieval. We call this method for query expansion via link analysis


[1]. 陳光華, 吳恬安: 跨語言資訊檢索中查詢問題特性於檢索效益之影響, In: Journal of Educational Media & Library Sciences, Vol. 46, no. 2, pp. 183-210, Winter 2008.
[4]. Braschler, M.: CLEF 2000 - Overview of Results. In: Cross-Language Information Retrieval and Evaluation. Lecture Notes in Computer Science 2069, pp. 89-101, 2001, Springer Verlag.
[5]. Buckley, C., Salton, G., Allan, J.: The effect of adding relevance information in a relevance feedback environment, In: Proceedings of SIGIR 17. pp. 292-300, 1994.
[9]. Cleverdon, C.W.: The Cranfield Tests on Index Language Devices. In: Aslib Proceedings 19, no. 6, pp. 173-194, 1967.
[15]. Giles. J.: Internet encyclopaedias go head to head, In: Nature, vol. 438, pp. 900-901 (Dec 2005) News.


