語料庫統計值與網際網路統計值在自然語言處理上之應用：以中文斷詞為例

由於World Wide Web近年來成長迅速，收集了各種不同種類的文件，具有資訊量大、動態的、且取得容易的優點，可以將web視為龐大且具時效性的語料庫。本論文主要目的是將web應用在自然語言處理上，以中文斷詞為例。斷詞系統以word-based n-gram model解歧義性，在沒有未知詞的情況下，實驗發現bigram model效能比tri-gram model好，而bigram model和reverse bigram model之間的效能差異並不大。由於corpus-based方法可以精確的計算出詞頻，而web-based方法受到搜尋引擎設計上的限制，造成page count不準確的因素，使得 corpus-based方法的效能會較web-based方法略佳。專有名詞辨識系統是針對人名、地名、和組織名三種類型所設計的，以likelihood ratio test演算法測試某一詞串是否通過檢驗，其中所用到的統計值來源為搜尋引擎的page count。實驗顯示專有名詞辨識成本P否主要取決於搜尋引擎收錄的網頁量，如果某專有名詞曾出現在網路上，則它的page count大於零，並且有很大機會可以通過公式檢驗，成左瑪踼悒X來。由於實驗發現，corpus統計值針對解決歧義性問題的效能略勝於web統計值，而web統計值可以用於專有名詞辨識工作，解決未知詞問題，因此我們結合兩者的優點，先利用web統計值偵測未知詞，再利用corpus解歧義性，可以使斷詞系統得到最佳的效能。本論文提出以web-based方法解決中文斷詞問題，不需要太多語言知識，只要透過搜尋引擎得到page count，視為詞頻應用於統計模型上，實作容易。實驗顯示，web資訊在自然語言處理上是有用的。

關鍵字

語料庫統計值；網際網路統計值統計值；自然語言處理；中文斷詞

並列摘要

無資料

並列關鍵字

Chinese Segmentation ； Natural Language Processing ； Web Statistics ； Corpus Statistics

參考文獻

[1] Chen K.J., Liu S.H(1992)., “Word Identification for Mandarin Chinese Sentences.” Proceedings of COLING-92, Nantes, 1992

[2] F. Keller and M. Lapata(2003). “Using the Web to obtain frequencies for unseen bigrams.” Computational Linguistics, 29(3): 459-484.

[3] Ge, X., Pratt, W. and Smyth, P(1999). “Discovering Chinese Words from Unsegmented Text.” SIGIR-99, pages 271-272, 1999

[6] J. Sun, J. F. Gao, L. Zhang, M. Zhou, and C. N. Huang(2002). “Chinese Named Rntity Identification Using Class-based Language Model.” 19th International Conference on Computational Lingustics, 2002

[8] Maosong Sun, Dayang Shen, and Benjamin K Tsou(1998), “Chinese word segmentation without using lexicon and hand-crafted training data,” 17th International Conference on Computational Linguistics, 1998, pp. 1265-1271,1998

國際替代計量

語料庫統計值與網際網路統計值在自然語言處理上之應用：以中文斷詞為例

全文下載

主題瀏覽