透過您的圖書館登入
IP:18.119.131.178
  • 學位論文

書目探勘資料之清理研究-以問卷資料為例

A Study of Data Cleaning in Bibliomining ─The Case Study of Questionnaire

指導教授 : 謝建成
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


資料清理是書目探勘中的第一步驟,同時也影響書目探勘的結果,但資料本身常具有雜訊的存在,如此可能導致探勘過程中耗費大量時間在解決去除雜訊的問題;同時雜訊過多也會影響書目探勘的結果。在過去研究之中書目探勘的資料清理大多討論內部性資料為主,少有以外部性資料作為資料來源,而圖書館事業中大量的外部性資料可與圖書館自動化系統各個模組資料做結合提供圖書館管理者更加了解圖書館讀者的使用行為。 本研究利用外部性資料作為資料來源,利用去除雜訊、資料整合、資料轉換、資料刪減、實行概念階層等步驟進行資料清理,並透過書目探勘中的迴歸分析與群集分析評估資料清理前後的探勘結果。結果顯示,進行資料清理後迴歸分析的R2與群集分析的解釋變數機率值皆能較執行資料清理前提昇 研究結果顯示本研究中所使用之資料清理方式與步驟有助於提昇書目探勘的準確度。此外,去除雜訊的步驟能有效提昇書目探勘的結果,其後並加以實行各項分群,如:雙變項分群、多變項分群等,皆能提昇書目探勘的結果。

關鍵字

資料清理 書目探勘

並列摘要


Data cleaning is the inception of bibliomining, whose results also depend heavily on it. Yet, in the light of the noises encoded in the data in question, the traditional implementation of bibliomining has to sacrifice efficacy for the elimination of these undesired noises. In past papers most researchers on data cleaning for bibliomining focused on the processing of internal data, only few took external data as their source materials. However, vast external data available in the field of library science can be synthesized with library integrated system, providing librarians a better understanding of the usage behaviors of library users. In the methodology of our research, we first take external data as our source materials and apply them to different stages of data cleaning, i.g. data integration, data transformation, data reduction and concept hierarchy. Afterwards, we process both the untouched and the processed data with regression and clustering, on whose results we take extensive inspection with an aim to evince our concepts and methodology of data cleaning do facilitate the accuracy in bibliomining. Our results indicate that we are capable of extracting a much prospering result of variable probability in both R2 analysis of recession and clustering if data cleaning is adopted in bibliomining. In addition to noise elimination, we found the possibility to further increase the efficacy of bibliomining through dual-variable clustering, multi-variable clustering, to name just a few.

並列關鍵字

Data Cleaning Bibliomining

參考文獻


卜小蝶(2002)。使用者導向之圖書分類關聯分析研究。圖書資訊學刊,17,81-94。
林湧順(2005)。以資料探勘技術探討高中生使用圖書館之行為模式--以國立台灣師範大學附屬高級中學為例。國立臺灣師範大學社會教育學系碩士論文。未出版,台北。
陳建傑(2009)。基於借閱目的之資料清理機制研究—以興趣目的為例。國立台灣師範大學圖書資訊學研究所碩士論文。未出版,台北。
柯皓仁、楊雅雯、吳安琪、戴玉旻(2002)。個人化及群體化圖書館資訊服務初探。國家圖書館館刊,91(1),161-195。
謝建成、魏儀禎(2003)。資料倉儲於圖書館管理應用之研究—以分析館藏圖書探討圖書採購決策。教育資料與圖書館學,40: 3,345-356。

延伸閱讀