透過您的圖書館登入
IP:3.21.93.44
  • 期刊
  • OpenAccess

一個數位人文內容研究的文本擷詞工具

A Text-Term Extractor for the Study of Digital Humanities

摘要


人文研究經常需從研究的文本中,盡可能找出有意義詞彙。詞彙擷取方法是指能夠從數位化文本中,擷取出有意義詞彙的演算法。詞夾子方法是一種半自動的詞彙擷取演算法,它在詞彙擷取的過程中,除了利用電腦進行大量的字串比對,也需要人力介入以提升擷詞成效。本文討論擷詞工具2020。我們先回顧詞夾子方法的原理,說明2015年所開發的詞夾工具在實務操作上的侷限,然後討論新版工具解決這些問題的方式。我們以《熱蘭遮城日誌》第三冊為文本,進行「村社名、人名、船名、日期字串、身分職稱、貨物名稱」等六種類型詞彙的擷詞實驗。這項實驗證實擷詞工具2020可在實務上幫助研究者有效擷取詞彙。最後,我們簡單討論擷詞成果的可能應用,以及未來的改進方向。

並列摘要


Humanists often rely on texts in their research. They may want to extract as many terms of specific type as possible from the texts. Term extraction methods are computational algorithms to extract meaningful terms from a large corpus of digitized texts. Term-clips method is a semi-automatic term extraction approach that requires human-computer interaction to extract terms from texts. In this paper, we discuss a new term-extraction tool, called term extractor 2020, based on improvements from the clipper tool developed in 2015. We recall the idea of term-clips method, describe the problems of the old tool in real cases, and discuss how these problems were solved with term extractor 2020. We run an experiment to extract six classes of terms (village names, person names, ship names, date string, person titles, and freight items) from the text 熱蘭遮城日誌 (a Chinese translation version of "De Dagregisters van het Kasteel Zeelandia") vol. 3. The experiment shows that term extractor 2020 can help researchers extract terms (especially terms in Chinese) in an effective and efficient way.

參考文獻


杜協昌(2018)。DocuSky:個人文字資料庫的建構與分析平臺。數位典藏與數位人文,2,71-90。doi:10.6853/DADH.201810_2.0004
國立臺灣大學數位人文研究中心(2010)。蘇州碼轉換器。取自 http://doi.org/10.6681/NTURCDH.DB_THDL/SERVICE/Suzhoucode
江樹生譯註(2000)。熱蘭遮城日誌。臺南:臺南市政府。
江樹生譯註(2003)。熱蘭遮城日誌。臺灣日記知識庫。取自 https://taco.ith.sinica.edu.tw/tdk/ 熱蘭遮城日誌
杜協昌(2016)。半自動詞彙擷取:簡化的詞夾子方法以及其 JavaScript元件的開發與應用。在項潔編,數位人文:在過去、現在和未來之間(頁171-206)。臺北:國立臺灣大學出版中心。

延伸閱讀