同性質的一群物體,任兩者之間可能存在有某些關係,而不是兩兩獨立的;關連發掘的目的,就是要從一群同性質的物體之中,找出任兩者之間是否有關係。我們將物體稱為「標的」(target),而物體間的關係則稱為「關連」。瞭解標的之間的關連,有許多可能的應用,例如協助建構社會網絡(social network)就是其中之一。 傳統的詞語搭配(collocation)檢驗方法,可以應用在關連發掘上,亦即如果兩個標的的詞語搭配性質較強,就代表它們之間有關連。這篇論文則從意見的角度切入,提出新的關連發掘方法。我們假設,如果兩個標的在一段時間之內,它們的意見變化很類似,那就表示兩者有關連。所以,我們首先針對單一標的進行意見分析,觀察一段時間之中大眾對它的意見變化;接著再對任兩個標的,檢視它們的意見變化是否類似。 在本篇論文中,共提出了三種關連發掘模型:「以詞語搭配為基礎之模型」(2 個模型)、「以意見為基礎之模型」(4 個模型),和整合前兩者的「綜合模型」(2 個模型)。我們從93 個網站蒐集了2003 年8 月到2005 年3 月的財經新聞,總共1,282,050 篇,做為實驗文件集。這篇論文將台灣股市的上市、上櫃公司當作實驗標的,然後利用三種模型,分別去檢驗每一個公司配對是否有關連。答案集則由股價資料中抽取出來,以股價的連動關係,來做為公司間是否具有關連的參考答案。接著用精確度(precision)、回收率(recall)和f分數(f-score)來評估三種模型。實驗結果顯示,綜合模型是所有模型中效能最好的,在提交前25、50 和100 個公司配對時,精確度分別為1、0.9 和0.75。由於綜合模型不只採用了詞語搭配,還參考標的的意見變化,而使得效能提升,因此可以說明,意見分析的確有助於關連發掘。