古契書對於研究台灣土地開發及社會經濟活動的歷史脈絡為相當珍貴的資料,契書中所記載的土地資訊卻常因在不同時間或是出自於不同人之手,而發現相同的土地卻有不同寫法的名稱,如此不僅會對系統檢索造成影響,在其他的相關研究中也會產生諸多不便。「台灣歷史數位圖書館」(THDL)蒐集了大量清代及日治時期的古契書,其中記錄的土地範圍遍佈全台,且經過時空變遷後,若想逐篇進行田野調查實為不易。 因此本研究利用中文字音與字形的相似特性,尋找指稱相同地點卻不同寫法的地名。一開始先從契書的全文資料中擷取地名在全文中出現的相對位置,來組織地名之間的階層關係。接著針對中文字的特性,分別依照字音和字形的相似特徵設計模糊比對,再以先前得到的地名階層資訊,對所有具相同上層的地名兩兩進行比對,最後經人工檢查,發現指稱相同地點卻有不同寫法的地名總共有844對。其中結果有包含常見的共通字、有因為音譯的不同產生的不同寫法、也有契書抄寫時的筆誤、還有數位化時的各種因素產生的差異。 本研究得到的結果,可以幫助研究古契書的研究者在THDL中更有效率的收集一範圍內的相關古契書,好讓研究者可以花更多的心力在其研究上。而本研究所使用的方法對於其他使用中文比對的資訊研究亦有助益,例如在古契書中尋找上下手契所需要的地名特徵,也可以使用本研究的相似地名比對方法。