透過您的圖書館登入
IP:18.219.22.169
  • 會議論文

利用結構化資訊改善文件視覺化技術分群結果

摘要


在資料探勘的領域中,分群技術是常被廣泛應用的,近年來更有學者將其概念應用到文件探勘的領域中。而傳統上若將分群技術應用於文件型態的資料時,常會利用向量空間模型來表達文件間的相似度。但是,若非透過視覺化分群技術進行文件分群,實在很難看出分群結果的端倪;且傳統向量空間模型中,每個關鍵字所構成的維度都是獨立的,無法區別文中詞彙問的關聯性,包括「同義異詞」以及「共現詞」等問題,因為字詞間可能存在這二種關聯性使得進行文件相似度的比對時可能會造成誤判的情況,降低文件分群之品質。因此,當讀者在進行電子資料庫檢索時,如果透過傳統向量空間模型的方法,則其找出來的文件可能是不完整的。另外,傳統的資料探勘技術主要針對非結構化的文件資料進行資料探勘,但在現今的電子資料庫中,半結構化的文件資料其重要性亦不容忽視。 半結構化文件裏含有非結構化資訊與結構化資訊。本研究提出的一般性模型,除了可以透過改善關鍵字問關聯度來針對非結構化資訊進行分群,也可對結構化資訊進行分群,以達到提升文件探勘分群品質之目的。研究成果提供視覺化文件分群結果,在二維平面上呈現不同文件群集之間的關聯程度,讀者可以直覺地了解不同群集之間的關係進而找到自己所感興趣的文件。而且,本研究透過視覺化分群技術自組映射圖的分群結果,可以更進一步分析與統計群聚在一起的文件,找出不同時問性的研究趨勢所產生的變化為何,如此讀者可以清楚地看出目前最新的研究課題是什麼。

延伸閱讀