  • 學位論文


A Study on Identification of Opinion Holders and Analysis of Their Viewpoints

指導教授 : 陳信希


意見代表人們對某個議題的主觀想法,人們常透過文章表述意見,意見探勘 (opinion mining) 的技術可以幫助使用者自動分析大量文章中的意見。意見包括意見傾向 (opinion polarity) 、意見強度 (opinion strength) 、意見持有者 (opinion holder) 及評論目標 (opinion target) 四個要素。意見中表述意見的人或組織稱為意見持有者,意見持有者在不同議題中發表過的意見代表他的意見立場。在意見探勘中,意見持有者辨識的技術對於了解有哪些人或組織在表述意見、某個意見持有者的意見立場及兩個意見持有者的意見立場是否相似等相關資訊特別重要。意見持有者辨識主要有五個挑戰:同指涉解析 (coreference resolution) 、巢狀結構 (nested structure) 、處理歧異的標記、完整的意見持有者及候選詞選擇。 意見持有者辨識的目的是從意見句中擷取表述意見的人或組織,本研究提出一個以機器學習為基礎的意見持有者辨識方法。本研究將意見持有者辨識分為作者意見辨識及意見持有者標記兩部分。在作者意見辨識中,本研究提出詞彙相關資訊、詞性相關資訊、具名實體資訊、標點符號資訊、文句組成資訊及意見相關資訊等特徵值並使用支援向量機來解決此問題。在意見持有者標記中,本研究提出詞彙相關資訊、詞性相關資訊、具名實體資訊、標點符號資訊、文句組成資訊、前後文相關資訊及意見相關資訊等特徵值並使用條件隨機域模型來解決此問題。最後結合作者意見辨識結果及意見持有者標記結果產生最後的意見持有者。 本研究所實作出來的系統,應用在NTCIR7多語意見分析評比項目繁體中文語料的評估上,可以達到F值為0.734的效能,是採取機器學習方法的參賽隊伍中效能最佳的,也相當接近目前最佳系統的效能。對於意見持有者辨識語料中標記歧異的情形,本研究加以分析,並提出使用此語料來訓練模型的方法,本研究也針對系統辨識錯誤之結果分析,並提出兩種解決方法:具名實體修復及意見持有者尾詞標記。 本研究將意見持有者辨識應用於意見立場分析,我們以意見持有者在不同主題中的意見傾向來代表意見立場,並以餘弦相似度代表兩個意見持有者的意見立場相似程度。我們分別使用正確答案與系統辨識出之答案做意見立場分析,雖然本系統辨識之答案的效能不是最佳的,但應用在意見立場分析上可以達到與正確答案類似的結果。


People write various articles in order to express their opinions. The opinion includes opinion polarity, opinion strength, opinion target and opinion holder. In this paper, we focus on the identification of opinion holders. In each article, the opinion holder could be the post-author or a nominal (noun, noun phrase or named entity) which issues some opinions in the article. In this paper, the task of opinion holder identification is divided into two subtasks: identification of author’s opinions and labeling of opinion holders, respectively. In this paper, we apply SVM (Support Vector Machine) and CRF (Conditional random field) to automatically extract opinion holders. The SVM is adopted to identify author’s opinions, and the CRF is utilized to label opinion holders (i.e., nominals). We propose some features including lexical features, part-of-speech features, named entity features, punctuation mark features, position features, context features and opinion-word features in the SVM and the CRF. Finally, the mining process will combine the result of the SVM and CRF. In experiments, the proposed method achieves the F-score 0.734 in NTCIR7 MOAT task at traditional Chinese side. It is best than other teams who utility learning methods.


