由於World Wide Web近年來成長迅速,收集了各種不同種類的文件,具有資訊量大、動態的、且取得容易的優點,可以將web視為龐大且具時效性的語料庫。本論文主要目的是將web應用在自然語言處理上,以中文斷詞為例。 斷詞系統以word-based n-gram model解歧義性,在沒有未知詞的情況下,實驗發現bigram model效能比tri-gram model好,而bigram model和reverse bigram model之間的效能差異並不大。由於corpus-based方法可以精確的計算出詞頻,而web-based方法受到搜尋引擎設計上的限制,造成page count不準確的因素,使得 corpus-based方法的效能會較web-based方法略佳。 專有名詞辨識系統是針對人名、地名、和組織名三種類型所設計的,以likelihood ratio test演算法測試某一詞串是否通過檢驗,其中所用到的統計值來源為搜尋引擎的page count。實驗顯示專有名詞辨識成本P否主要取決於搜尋引擎收錄的網頁量,如果某專有名詞曾出現在網路上,則它的page count大於零,並且有很大機會可以通過公式檢驗,成左瑪踼悒X來。 由於實驗發現,corpus統計值針對解決歧義性問題的效能略勝於web統計值,而web統計值可以用於專有名詞辨識工作,解決未知詞問題,因此我們結合兩者的優點,先利用web統計值偵測未知詞,再利用corpus解歧義性,可以使斷詞系統得到最佳的效能。 本論文提出以web-based方法解決中文斷詞問題,不需要太多語言知識,只要透過搜尋引擎得到page count,視為詞頻應用於統計模型上,實作容易。實驗顯示,web資訊在自然語言處理上是有用的。