中文名詞組的辨識：規則式判別、監督式、半監督式與非監督式學習法的實驗

名詞組辨識在自然語言處理中可以說是一個非常關鍵的問題，不同組合的結構、其它詞性的變化、或是結構和字本身的歧義，都大大地影響了名詞組辨識的結果。好的辨識結果可以幫助現今許多和自然語言處理相關的應用，尤其是一些名詞組佔了大多數比例的服務，例如：網路探勘、搜尋引擎等等。但由於中文較其它語言複雜，又缺乏大型標記過的語料，使得中文的名詞辨識做起來更加困難。最近這幾年，許多自然語言處理的問題，包括詞組辨識，利用所謂的訓練語料配合監督式學習的分類方法解決的文獻紀錄非常多。但是這些文獻中，常存在一些共同待解決的問題，如：訓練語料不足，並且很難在其它文獻中找到提出的改善方式。本篇論文探討以四種不同方法，辨識中文名詞組。首先參考前人統整好的規則，實做Rule-based 模型，當作一個比較的對象。第二個是監督式學習法（Supervised-learning）的模型：利用Taku Kudo，所提出利用SVM的演算法所作的chunking工具：Yamcha（Yet Another Multipurpose CHunk Annotator），訓練中文名詞組辨識的初始模型，並嘗試以不同於多數文獻中看到的IOB表示法及前二後二位置的語意資訊，找到適用於中文的參數。第三個是基於半監督式學習法（Semi-supervised learning）中自我學習的概念，利用網路上未標記過的資料，強化監督式學習法的半監督式學習法模型。最後一個是個完全利用搜尋引擎得到的未標記過資料（Raw data）等此類網路資源，以及中文本身的語言特徵，所結合而成的未監督式學習法（Unsupervised-learning）的模型。實驗結果證明，最簡單的Rule-based作法在開放測試的f-rate為0.71，比監督式學習法的0.58高出約0.13；而在監督式學習法（supervised learning）的實驗步驟裡，我們所選用的參數比前人選用的參數做出的模型，在第一階段開放測試中高出了約16個百分比；半監督式學習中，加入unlabeled data這個步驟也的確提昇監督式學習法的效果，在第二個開放測試中的f-rate為78.79％，比監督式學習法高出了約8個百分比，不但保存了分類器的優點，同時提昇中文在名物化現象時有歧義的名詞辨識結果；完全不倚賴分類器的非監督式學習法，在開放測試的f-rate為84.57％，比半監督式學習法高出了17個百分比，從開放測試中看出其具有解決長名詞及名物化動詞的效果。

關鍵字

中文名詞組辨識； YamCha ；監督式學習法；半監督式學習法； web corpus

並列摘要

無資料

並列關鍵字

Chinese NP chunking ； YamCha ； supervised-learning ； semi-supervised learning ； web corpus

參考文獻

【6】 Guang-Lu Sun, Chang-Ning Huang, Xiao-Long Wang, and Zhi-Ming Xu .Chinese Chunking Based on Maximum Entropy Markov Models. Computational Linguistics and Chinese Language Processing Vol. 11, No. 2, June 2006, pp. 115-136

【13】 Bing-Gong Ding , Chang-Ning Huang and De-Gen Huang,“Chinese Main Verb Identification: From Specification to Realization”,Computational Linguistics and Chinese Language Processing ,Vol. 10, No. 1, March 2005, pp. 53-94

Grace Ngai and Chi-Shing Wang. A Knowledge-Based Approach for Unsupervised Chinese Coreference Resolution, in the Computational Linguistics and Chinese Language Processing Vol. 12, No. 4, December 2007, pp. 459-484

【2】 Kudo, Taku, and Matsumoto, Yuji. (2000). Use of Support Vector Learning for Chunk Identification. In Proceedings of CoNLL-2000, pp. 142-144.

【3】 Yarowsky, D. (1995). Unsupervised word sense disambiguation rivaling supervised methods. Proceedings of the 33rd Annual Meeting of the Association for Computational Linguistics (pp. 189–196).

被引用紀錄

簡之文（2012）。部落格文章情感分析之研究〔碩士論文，淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2012.00693

陳軒正（2013）。以SentiWordNet為基礎建構具領域特性之情感詞彙庫〔碩士論文，中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201300555

黃馨儀（2011）。建立在資訊品質架構上的口碑文章品質分類〔碩士論文，中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201100850

國際替代計量

中文名詞組的辨識：規則式判別、監督式、半監督式與非監督式學習法的實驗

全文下載

主題瀏覽