透過您的圖書館登入
IP:18.221.129.19
  • 學位論文

應用廣義知網以支援情緒分析之研究

Enhancing E-HowNet for Sentiment Analysis

指導教授 : 陳信希

摘要


情緒分析主要分成文章、語句、以及文字三個階層,其中文字階層情緒分析為文章集語句階層情緒分析之基礎,因此有許多手工標記的情緒字典,但由於手工標記工程浩大,因此自動標記情緒字典仍是一個重要的議題,在許多研究中將這種標記稱為詞彙的語意傾向(semantic orientation)或意見極性(opinion polarity)。 本研究以廣義知網詞彙為標記的目標,運用以支援向量機為主的監督式機器學習演算法,抽取廣義知網以及外部語料特徵來預測詞彙的語意傾向。由於廣義知網沒有語意傾向的標記,因此本研究使用國立台灣大學意見詞詞典與廣義知網的交集做為實驗資料集。 廣義知網使用有限的義原(primitive)以及獨特的結構式,來定義所有的詞彙,因此本研究以義原為中心抽取廣義知網特徵,並輔以其結構式作為特徵值的加權。 由於廣義知網定義式的資訊有少許的不足之處,本研究另外使用Chinese Web 5-gram抽取外部語料特徵,使用多種不同的詞集為特徵集,以詞彙的同時出現次數作為特徵值,並且使用三種不同的特徵值處理方式。最後將外部語料特徵與廣義知網特徵組合成新的特徵集。除此之外,並針對不同的廣義知網詞彙,使用不同的分類器作為分類器組合的方式,進一步使其產生更佳的標記效能。 最後廣義知網特徵得到最高89.61%的正確率;外部語料特徵最高得到88.23%的正確率;兩種特徵組合後正確率顯著提升至92.33%;組合分類器則更進一步提升至92.63%,此標記效能與國立台灣大學意見詞詞典標記者的最佳效能幾乎相同。

並列摘要


The semantic orientation of terms is fundamental for sentiment analysis in sentence and document levels. Although some Chinese sentiment dictionaries are available, how to predict the orientation of terms automatically is still important. In this paper, we predict the semantic orientation of terms of E-HowNet. We extract many useful features from different sources to represent a Chinese term in E-HowNet, and use a supervised machine learning algorithm to predict its orientation. Our experimental result showed that the proposed approach can achieve 92.33% accuracy, which is comparable to the accuracy of human taggers.

參考文獻


Chang, C.-C. & Lin, C.-J., 2001. LIBSVM: a library for support vector machines,
Dietterich, T.G., 1998. Approximate statistical tests for comparing supervised classification learning algorithms. Neural computation, 10(7), pp.1895–1923.
Esuli, A. & Sebastiani, F., 2005. Determining the semantic orientation of terms through gloss classification. In Proceedings of the 14th ACM international conference on Information and knowledge management. pp. 617–624.
Lin, K.H.-Y., Yang, C. & Chen, H.-H., 2008. Emotion Classification of Online News Articles from the Reader’s Perspective. In Proceedings of Web Intelligence and Intelligent Agent Technology, 2008. WI-IAT ’08. pp. 220 -226.
Lu, B. et al., 2010. Learning Chinese polarity lexicons by integration of graph models and morphological features. Information retrieval technology, pp.466–477.

被引用紀錄


張莊平(2012)。中文文法剖析應用於電影評論之意見情感分類〔碩士論文,國立臺灣師範大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0021-1610201315293869

延伸閱讀