透過您的圖書館登入
IP:18.222.205.211
  • 期刊

虛擬聯合目錄系統中擁有共同結構網頁文件之資料萃取

Information Extraction for Documents with Common Structure in Virtual Union Catalog Systems

若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


所謂虛擬聯合目錄系統乃是從分散各處的圖書館館藏查詢系統中收集並整合館藏資料的系統。在虛擬聯合目錄系統建置的過程中,大多數的圖書館館藏查詢系統不允許直接去擷取底層資料庫內的資料,僅提供其在WebPAC上的查詢功能。這些WebPAC上的查詢功能所產生的網頁資料通常擁有共同的文件結構,而傳統的資訊擷取方式無法從這些擁有共同結構的網頁文件中萃取資料。為了讓虛擬聯合目錄系統能從個別的WebPAC傳回的網頁中萃取資料,本篇論文提出了一個Level-ID演算法來分析並萃取使用者感興趣的資料。Level-ID演算法配置唯一的Level-ID給每一個文件中的標籤元素,再由使用者標示欲萃取資料的Level-ID以及所代表的意義,並將資料欄位存成結構標記檔。最後系統就可參照結構標記檔來萃取擁有共同結構文件之資料。在資料萃取的過程,中所有的詮釋資料都以論釋資料描述語言(Metadata Modeling Language, MML)來描述與儲存,以達成資料交換及傳遞的一致性。本論文並驗證Level-ID的方法在交通大學虛擬聯合目錄系統(VUCS@NCTU)中的可行性。

延伸閱讀