透過您的圖書館登入
IP:3.137.220.120
  • 學位論文

辨識中文字相似特性產生的同地異名-以台灣歷史數位圖書館古契書為例

Recognizing Ambiguous Place Names Based on Similarity of Chinese Characters-A Case Study of Land Deeds in THDL

指導教授 : 項潔

摘要


古契書對於研究台灣土地開發及社會經濟活動的歷史脈絡為相當珍貴的資料,契書中所記載的土地資訊卻常因在不同時間或是出自於不同人之手,而發現相同的土地卻有不同寫法的名稱,如此不僅會對系統檢索造成影響,在其他的相關研究中也會產生諸多不便。「台灣歷史數位圖書館」(THDL)蒐集了大量清代及日治時期的古契書,其中記錄的土地範圍遍佈全台,且經過時空變遷後,若想逐篇進行田野調查實為不易。 因此本研究利用中文字音與字形的相似特性,尋找指稱相同地點卻不同寫法的地名。一開始先從契書的全文資料中擷取地名在全文中出現的相對位置,來組織地名之間的階層關係。接著針對中文字的特性,分別依照字音和字形的相似特徵設計模糊比對,再以先前得到的地名階層資訊,對所有具相同上層的地名兩兩進行比對,最後經人工檢查,發現指稱相同地點卻有不同寫法的地名總共有844對。其中結果有包含常見的共通字、有因為音譯的不同產生的不同寫法、也有契書抄寫時的筆誤、還有數位化時的各種因素產生的差異。 本研究得到的結果,可以幫助研究古契書的研究者在THDL中更有效率的收集一範圍內的相關古契書,好讓研究者可以花更多的心力在其研究上。而本研究所使用的方法對於其他使用中文比對的資訊研究亦有助益,例如在古契書中尋找上下手契所需要的地名特徵,也可以使用本研究的相似地名比對方法。

參考文獻


[1] 林玉茹,「歷史學與區域研究:以東臺灣地區的研究為例」,東台灣研究,7期,台東市:東台灣研究會,2002年,頁103-134。
[7] 黃于鳴,「臺灣古地契關係自動重建之研究」,臺灣大學資訊工程學研究所碩士論文,2009年。
[2] 葉乃靜,「《臺灣地名辭書》選介」,全國新書資訊月刊,31期,台北市:國家圖書館,2001年,頁47-48。
[8] 張尚斌,「詞夾子演算法在專有名詞辨識上的應用 -以歷史文件為例」,臺灣大學資訊工程學研究所碩士論文,2007年。
[14] 蔡淑玲,「台灣閩南語地名之語言研究-兼論其文化意涵與演變」,國立新竹師範學院台灣語言與語文教育研究所碩士論文,2004年。

被引用紀錄


陳品諺(2011)。《清實錄》之文本分析與時間標記初探〔碩士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2011.00446
陳詩沛(2011)。資訊技術與歷史文獻分析〔博士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2011.00178

延伸閱讀