透過您的圖書館登入
IP:216.73.216.156
  • 學位論文

自動化資料豐富程序

Automated Data-Enrichment Processing Technologies

指導教授 : 項潔
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


無論是在數位典藏資料庫、數位圖書館、或數位博物館的領域,詮釋資料的建立都是一個重要的工作,同時也經常是耗費最多人力時間成本的項目。然而,建立詮釋資料並不是一件簡單的工作,建立者需要對某個特定領域的知識有深入的了解,才能產出豐富、正確、精準的詮釋資料,進而詳實傳達數位資源的重要性。   正因為詮釋資料必須透過大量人力進行建置,因此在實務上經常採用「聯合目錄」的形式,亦即由原始資料典藏單位負責建立典藏物的詮釋資料,再提交至中央主管單位統一提供可整合檢索、瀏覽的介面。由原始資料典藏單位各別建立詮釋資料與數位化的過程稱為「分散建置」,而由中央整合並提供使用介面則稱為「集中管理」,此模式是在綜合考量時間、人力、資源等因素後所產生的平衡點,其衍生的問題則是詮釋資料的填寫方式難以趨於一致,進而導致後續在瀏覽、檢索、與資料鏈結上的困難。   本研究試圖提出一套資料前置處理的框架:ADEPT (Automated Data Enrichment Processing Technology),目標是將符合都柏林核心集的輸入資料進行自動化的前置處理與豐富化。ADEPT框架中包含了三個主要模組,分別是:驗證模組、正規化模組、專有名詞擷取模組。透過這些模組處理過的資料將趨向一致性、符合統一的格式,同時具備人事時地物等重要資訊。除此之外,豐富化後的資料將更適合鏈結資料(linked data),不但可與網際網路上的相關資料相互連結,更可讓詮釋資料進一步被加值利用,達到全民共享的目標。

並列摘要


Metadata, known as "data about data", is an important way to describe and utilize digital objects in digital archives, digital libraries, and digital museums. To present accurate, precise, and high-quality metadata is a critical task for the digital databases, and it requires not only a high cost of human resources, but also domain know-how.   Due to the labor-intensive nature of metadata construction, a model often employed in developing a large digital collection is to build different archives separately, then construct a central portal (such as a union catalog) for users to browse, search, and explore the entire collection. Although this model is effective in terms of time, manpower, and resources, it has some drawbacks. The main problem is inconsistency in the metadata constructed. This may be caused by misinterpretation of metadata attributes, different details when inputting data, or inadequate metadata format for interpreting specific data sets.   In this thesis, we propose ADEPT (Automated Data Enrichment Processing Technology), a framework for pre-processing data. ADEPT contains three primary modules: data verification, data normalization, and named-entity recognition. ADEPT aims to ensure data consistency and correctness, and increases data usability at the same time. Furthermore, the enriched metadata is more suitable for linked open data. By connecting related data, we can explore and share information and knowledge through the Web.

參考文獻


[1]. 項潔, 陳雪華, 鄭惇方, 魏雅惠, “數位典藏加值應用之探討”, 圖書資訊學刊 第2卷第1期, pp.1-17, 2004.
[7]. 陳雪華, 陳昭珍, 陳光華, “數位圖書館/博物館中詮釋資料之理論與實作”, 圖書館學刊, 13:37-60, 1998.
[16]. 陳淑君、城菁汝、陳雪華, “探索數位典藏的詮釋資料與索引典之多語化”, 圖圖書資訊學刊第5卷第2期, pp.49-72, 2013.
[11]. 陳昭珍, “數位典藏計畫異質系統互通機制:以OAI建立聯合目錄的理論與實務”, 國家圖書館館刊91年第1頁, 2002.
[21]. Leetaru, K.H., “Towards HPC for the digital Humanities, Arts, and Social Sciences: Needs and challenges of adapting academic HPC for big data”, IEEE 8th International Conference on E-Science (e-Science), pp.1-6, 2012.

延伸閱讀


國際替代計量