本研究旨在利用和關鍵詞的語意相關詞的線性組合是否逼近Google搜尋引擎排名。本研究著重的重點為網頁的隱含語意,以及關鍵字在網頁標題、網頁片段以及網址所出現的方式,而非所有的排名因素。我們將Google的搜尋結果網頁擷取出網頁標題、網頁片段以及網址,並進行n-gram斷詞,然後使用潛在語意分析 (Latent Semantic Analysis) 與Latent Dirichlet Allocation兩種方法來找出網頁中與查詢關鍵詞有語意相關的詞,並且計算關鍵字在搜尋結果網頁標題、網頁片段以及網址的權重,並將這三種線性組合成一個搜尋結果網頁的分數。我們以語意相關詞數量、網頁文件數量、uni-gram與n-gram語意相關詞以及一個主題與兩個主題的語意相關詞所組成的八組參數組合來進行實驗。實驗結果顯示,語意相關詞的數量為20個以及網頁文件數量為20筆的排序結果最好,在所有參數組合中結果最好的R-Precision可以到達0.8,顯示本研究的方法產生的新排序結果相當接近Google的原始排序結果。
This study aims to approximate Google ranking results using semantically related terms of query. Firstly, we crawled and extracted web page title, snippet and URL from Google search results. Then we found semantically related terms using Latent Semantic Analysis (LSA) and Latent Dirichlet Allocation (LDA) two approaches. Secondly we calculated the scores for keywords in title, keyword in snippet and keyword in URL for obtaining a document score. Several experiments were conducted on different combination of number of semantically related terms, number of documents, uni-gram and n-gram tokenization method, 1 topic and 2 topics of semantically related terms. The experimental results showed the average R-Precision reaches 0.8, indicating the ranking results of the proposed method approximates to Google results.