透過您的圖書館登入
IP:3.134.77.195
  • 學位論文

語料庫統計值與網際網路統計值在自然語言處理上之應用:以中文斷詞為例

Applications of Corpus Statistics and Web Statistics in Natural Language Processing: Chinese Segmentation as an Example

指導教授 : 陳信希

摘要


由於World Wide Web近年來成長迅速,收集了各種不同種類的文件,具有資訊量大、動態的、且取得容易的優點,可以將web視為龐大且具時效性的語料庫。本論文主要目的是將web應用在自然語言處理上,以中文斷詞為例。 斷詞系統以word-based n-gram model解歧義性,在沒有未知詞的情況下,實驗發現bigram model效能比tri-gram model好,而bigram model和reverse bigram model之間的效能差異並不大。由於corpus-based方法可以精確的計算出詞頻,而web-based方法受到搜尋引擎設計上的限制,造成page count不準確的因素,使得 corpus-based方法的效能會較web-based方法略佳。 專有名詞辨識系統是針對人名、地名、和組織名三種類型所設計的,以likelihood ratio test演算法測試某一詞串是否通過檢驗,其中所用到的統計值來源為搜尋引擎的page count。實驗顯示專有名詞辨識成本P否主要取決於搜尋引擎收錄的網頁量,如果某專有名詞曾出現在網路上,則它的page count大於零,並且有很大機會可以通過公式檢驗,成左瑪踼悒X來。 由於實驗發現,corpus統計值針對解決歧義性問題的效能略勝於web統計值,而web統計值可以用於專有名詞辨識工作,解決未知詞問題,因此我們結合兩者的優點,先利用web統計值偵測未知詞,再利用corpus解歧義性,可以使斷詞系統得到最佳的效能。 本論文提出以web-based方法解決中文斷詞問題,不需要太多語言知識,只要透過搜尋引擎得到page count,視為詞頻應用於統計模型上,實作容易。實驗顯示,web資訊在自然語言處理上是有用的。

並列摘要


參考文獻


[1] Chen K.J., Liu S.H(1992)., “Word Identification for Mandarin Chinese Sentences.” Proceedings of COLING-92, Nantes, 1992
[2] F. Keller and M. Lapata(2003). “Using the Web to obtain frequencies for unseen bigrams.” Computational Linguistics, 29(3): 459-484.
[3] Ge, X., Pratt, W. and Smyth, P(1999). “Discovering Chinese Words from Unsegmented Text.” SIGIR-99, pages 271-272, 1999
[6] J. Sun, J. F. Gao, L. Zhang, M. Zhou, and C. N. Huang(2002). “Chinese Named Rntity Identification Using Class-based Language Model.” 19th International Conference on Computational Lingustics, 2002
[8] Maosong Sun, Dayang Shen, and Benjamin K Tsou(1998), “Chinese word segmentation without using lexicon and hand-crafted training data,” 17th International Conference on Computational Linguistics, 1998, pp. 1265-1271,1998

延伸閱讀