應用於中文意見分析之詞內暨詞間語法結構自動擷取研究

本研究之宗旨在於「將語法資訊引入意見分析中，改善其效能」。主要分為兩部分：詞內層次與詞間層次。詞內層次方面，本研究首先參考各家分類方式，制定出一構詞分類架構，繼而就此架構展開語料標記工作。語料標記完成後，我們除對構詞類別分佈狀態進行統計外，亦對標記者間之答案ㄧ致性與人工標記時於各構詞類別之判定效能作了分析。分析結果顯示標記者間兩兩一致性係數（Kappa）均屬於「高度一致」範圍，肯認了此問題之信度。最後我們以《教育部國語辭典》之資訊為特徵值，於標記完成之語料集上以各種不同分類方法進行實驗，其中以條件隨機域模型（CRF）之效能最佳，對五大基本構詞類別可達到平均F分數為0.6的效能。詞間層次方面，本研究首先比較意見句與非意見句之依存關係數量，藉此證實意見句之語法結構確有其特殊性；繼而對所有意見句之語法分析樹展開「標示意見結構」之標記工作，共標記約一萬餘句意見句，每句至少由兩位工讀生標記之。其標記結果一則可轉換為依存關係，從而比較句中「表達意見」之結構的特殊性，並歸納出14種較常用於意見表達之依存關係；另一方面，標記結果亦可直接於語法分析樹上進行預測。本研究將問題簡化為序列式標記問題，以條件隨機域模型直接於語法樹上標示出意見結構位置。並得到精確度（precision）極高、回收率（recall）偏低之實驗結果。最後本研究亦將前述之詞內與詞間語法結構資訊施用於意見分析系統中，經實驗證實，此資訊確可改善目前之意見分析效能，致使意見句判斷達到0.8之F分數、意見詞極性判斷達到0.6之F分數。

關鍵字

意見分析；意見擷取；構詞；語法結構；意見句；意見詞；語法關係

並列摘要

無資料

並列關鍵字

opinion ； syntactic ； mophology ； NLP

參考文獻

亢世勇 (2001). "《現代漢語新詞語信息（電子）詞典》的開發與應用." 辭書研究 2001(2): 55-63.

亢世勇 (2002). "《現代漢語新詞語資訊電子詞典》的研究與實現." International Journal of Computational Linguistics & Chinese Language Processing 7(2): 89-100.

Chang, C.-C. and C.-J. Lin (2001). LIBSVM : a library for support vector machines.

Ku, L.-W., T.-H. Huang, et al. (2009). Using Morphological and Syntactic Structures for Chinese Opinion Analysis. Conference on Empirical Methods in Natural Language Processing, Singapore.

Ku, L.-W., Y.-S. Lo, et al. (2007). Test Collection Selection and Gold Standard Generation for a Multiply-Annotated Opinion Corpus. Proceedings of 45th Annual Meeting of Association for Computational Linguistics, Prague, Czech Republic.

國際替代計量

應用於中文意見分析之詞內暨詞間語法結構自動擷取研究

主題瀏覽