透過您的圖書館登入
IP:18.218.48.62
  • 學位論文

利用語意相關詞和基因演算法來逼近中文搜尋引擎排名

Approximating Chinese Search Engine Ranking Function Using Semantically Related Terms and a Genetic Algorithm

指導教授 : 陸承志

摘要


本研究在探討中文搜尋引擎在進行網頁排序時所使用到的因素,其權重的比重,以及查詢關鍵詞和相關詞應該如何配置在網頁的標題和描述。本研究從中文Yahoo與中文Google的搜尋結果擷取出網頁的標題、描述、網址,並且利用潛在語意分析從網頁標題和描述中找出和查詢關鍵詞具有關聯之詞彙,並為其計算權重,最後用標題、描述、網址和網頁品質分數四種排序因素的線性組合為網頁重新計分與排名,以比較新舊排名的差異。我們使用了20個查詢關鍵詞分別對中文Google和中文Yahoo搜尋結果進行實驗,結果顯示,Google看重的是查詢關鍵詞出現在網頁標題的位置,Yahoo則是不看重位置,只要求查詢關鍵詞要出現。在因素的權重值方面,兩個搜尋引擎在PageRank的權重值都比其他因素來的高。從實驗結果來看,本研究提出的方法對Google搜尋結果比較穩定,但是整體來看對Yahoo的效果比較好。

並列摘要


This study approximated Chinese search engine ranking function using a linear combination of weighted score of title, snippet, URL and PageRank of Web Pages. The effects of query location and number of semantically terms in title and snippet were also examined. Top 20 search results were retrieve from Google Taiwan and Yahoo Taiwan as the data set. Latent Semantic Analysis was employed to find the relevant score of semantically related terms to a given query, to a web page retrieved was re-assigned a new score and new rank for ranking evaluation. Experiments were conducted. The experimental results show that the query’s position in title is important to Google, but Yahoo seems not to consider a query’s position. This study also indicates that the proposed method is stable on Google search results, while it performed better on Yahoo search results.

參考文獻


[2]廖良珩,(2011)「使用基因演算法推估Google搜尋引擎的網頁排名因素及權重」,元智大學資訊管理所碩士論文。
[3]黃信捷,(2008)「使用潛在語意分析與自我映射於中文文件摘要」,國立清華大學資訊系統與應用研究所碩士論文。
[4]林渝翔,(2011)「一個產生長詞和新詞的中文混合斷詞系統」,元智大學資訊管理所碩士論文。
[5]Agichtein, E. (2006). Web information extraction and user modeling: Towards
closing the gap, IEEE Data Eng. Bull., (29:4), pp. 37–44.

被引用紀錄


張祺玩(2010)。糖尿病醫療給付改善方案之醫療盡責度與照護結果之相關性〔碩士論文,長榮大學〕。華藝線上圖書館。https://doi.org/10.6833/CJCU.2010.00005
林德利(2015)。醫療院所健康檢查知識庫之建置與應用〔碩士論文,國立屏東科技大學〕。華藝線上圖書館。https://doi.org/10.6346/NPUST.2015.00081

延伸閱讀