對 台文 或 華文 來說, 「讓格書寫」是 書寫方式上的 新提議, 「讓格書寫」主要是以 分 簡單詞組的 方式 來書寫。 依照 讓格書寫的 方式 我們 製作出了 台華 讓格 平行語料庫。 本文 使用 Brown et. al. (1990) 作 對齊的標記, 對 台華 簡短詞組 作 詞組的對齊。 因 台文 和 華文 之間 具有 兩個 共通性, 第一: 漢字 共同詞 不少、 第二: 詞序接近, 所以 林淑卿(2009) 是 基於 這兩種 共通性 而使用 最大共同子序列 的 方法 實作 台華的自動對齊, 而 我們 則是 再進一步 去討論 將 簡短詞組 透過詞典 產生 候選香腸 再作 最大共同子序列 的 方法 實作 台華的自動對齊。
Written in LangGeh orthography, the alignment of parallel sentences in Taiwanese and in Mandarin has been studied (Lin 2009). By substituting a few common words in Taiwanese with their counterparts in Mandarin, the LCS (longest common subsequence) algorithm is able to give about 70% recall rate while keeps those aligned highly correct (it actually was perfectly correct in the experiment). This thesis continues the study on alignment by constructing sausage nets from Taiwanese sentences and from Mandarin sentences using various parallel dictionaries, and then applying the LCS algorithm. The sausage net approach gives in 85%~90% recall rates on various corpora while still retaining nearly perfect correctness for those marked aligned.