透過您的圖書館登入
IP:18.118.200.197
  • 學位論文

意見探勘在關連發掘上的應用

Applications of Opinion Mining in Relationship Discovery

指導教授 : 陳信希

摘要


同性質的一群物體,任兩者之間可能存在有某些關係,而不是兩兩獨立的;關連發掘的目的,就是要從一群同性質的物體之中,找出任兩者之間是否有關係。我們將物體稱為「標的」(target),而物體間的關係則稱為「關連」。瞭解標的之間的關連,有許多可能的應用,例如協助建構社會網絡(social network)就是其中之一。 傳統的詞語搭配(collocation)檢驗方法,可以應用在關連發掘上,亦即如果兩個標的的詞語搭配性質較強,就代表它們之間有關連。這篇論文則從意見的角度切入,提出新的關連發掘方法。我們假設,如果兩個標的在一段時間之內,它們的意見變化很類似,那就表示兩者有關連。所以,我們首先針對單一標的進行意見分析,觀察一段時間之中大眾對它的意見變化;接著再對任兩個標的,檢視它們的意見變化是否類似。 在本篇論文中,共提出了三種關連發掘模型:「以詞語搭配為基礎之模型」(2 個模型)、「以意見為基礎之模型」(4 個模型),和整合前兩者的「綜合模型」(2 個模型)。我們從93 個網站蒐集了2003 年8 月到2005 年3 月的財經新聞,總共1,282,050 篇,做為實驗文件集。這篇論文將台灣股市的上市、上櫃公司當作實驗標的,然後利用三種模型,分別去檢驗每一個公司配對是否有關連。答案集則由股價資料中抽取出來,以股價的連動關係,來做為公司間是否具有關連的參考答案。接著用精確度(precision)、回收率(recall)和f分數(f-score)來評估三種模型。實驗結果顯示,綜合模型是所有模型中效能最好的,在提交前25、50 和100 個公司配對時,精確度分別為1、0.9 和0.75。由於綜合模型不只採用了詞語搭配,還參考標的的意見變化,而使得效能提升,因此可以說明,意見分析的確有助於關連發掘。

關鍵字

意見抽取 關連發掘

並列摘要


無資料

參考文獻


Agrawal, R. and Srikant, R. (1994) “Fast Algorithm for Mining Association Rules,” VLDB’94, 1994.
李俐瑩(2005) 意見摘要方法之研究, 碩士論文, 國立台灣大學資訊工程所, 台北, 2005.
Kim, Soo-Min and Hovy, Eduard (2004) “Determining the Sentiment of Opinions,” Proceedings of Coling, pages 1367-1373, 2004.
Manning, C.D. and Schutze, H. (1999) Foundations of Statistical Natural Language Processing, MIT Press.
Miller, G.-A., Beckwith, R., Fellbaum, C., Gross, D. and Miller, K. (1990) “Introduction to WordNet: An On-line Lexical Database,” Journal of Lexicography, 3(4), pages 235-244, 1990.

延伸閱讀