意見探勘在關連發掘上的應用

同性質的一群物體，任兩者之間可能存在有某些關係，而不是兩兩獨立的；關連發掘的目的，就是要從一群同性質的物體之中，找出任兩者之間是否有關係。我們將物體稱為「標的」（target），而物體間的關係則稱為「關連」。瞭解標的之間的關連，有許多可能的應用，例如協助建構社會網絡（social network）就是其中之一。傳統的詞語搭配（collocation）檢驗方法，可以應用在關連發掘上，亦即如果兩個標的的詞語搭配性質較強，就代表它們之間有關連。這篇論文則從意見的角度切入，提出新的關連發掘方法。我們假設，如果兩個標的在一段時間之內，它們的意見變化很類似，那就表示兩者有關連。所以，我們首先針對單一標的進行意見分析，觀察一段時間之中大眾對它的意見變化；接著再對任兩個標的，檢視它們的意見變化是否類似。在本篇論文中，共提出了三種關連發掘模型：「以詞語搭配為基礎之模型」（2 個模型）、「以意見為基礎之模型」（4 個模型），和整合前兩者的「綜合模型」（2 個模型）。我們從93 個網站蒐集了2003 年8 月到2005 年3 月的財經新聞，總共1,282,050 篇，做為實驗文件集。這篇論文將台灣股市的上市、上櫃公司當作實驗標的，然後利用三種模型，分別去檢驗每一個公司配對是否有關連。答案集則由股價資料中抽取出來，以股價的連動關係，來做為公司間是否具有關連的參考答案。接著用精確度（precision）、回收率（recall）和f分數（f-score）來評估三種模型。實驗結果顯示，綜合模型是所有模型中效能最好的，在提交前25、50 和100 個公司配對時，精確度分別為1、0.9 和0.75。由於綜合模型不只採用了詞語搭配，還參考標的的意見變化，而使得效能提升，因此可以說明，意見分析的確有助於關連發掘。

關鍵字

意見抽取；關連發掘

並列摘要

無資料

並列關鍵字

opinion extraction ； relationship discovery

參考文獻

Agrawal, R. and Srikant, R. (1994) “Fast Algorithm for Mining Association Rules,” VLDB’94, 1994.

李俐瑩（2005）意見摘要方法之研究, 碩士論文, 國立台灣大學資訊工程所, 台北, 2005.

Kim, Soo-Min and Hovy, Eduard (2004) “Determining the Sentiment of Opinions,” Proceedings of Coling, pages 1367-1373, 2004.

Manning, C.D. and Schutze, H. (1999) Foundations of Statistical Natural Language Processing, MIT Press.

Miller, G.-A., Beckwith, R., Fellbaum, C., Gross, D. and Miller, K. (1990) “Introduction to WordNet: An On-line Lexical Database,” Journal of Lexicography, 3(4), pages 235-244, 1990.

國際替代計量

意見探勘在關連發掘上的應用

全文下載

主題瀏覽