對 華文 或 台文 來說, 「讓格書寫」 是 書寫方式上的 新提議, 「讓格書寫」 是以 分 簡單詞組的 方式書寫; 在 讓格書寫 之下, 我們 製作了 「讓格09平行對齊語料庫」, 並 從中擷取 台華對應詞組典; 我們 比較 兩種 抽取 對應詞組典的 方法, 第一個方法 使用 簡單的 高關聯準則, 第二個方法 使用 「平行句對齊」的 途徑; 相較於 其他的語言對, 如 英文 和 法文, 台文 和 華文 之間 具有 兩個共性, 第一: 漢字共同詞 不少、 第二: 詞序接近, 本篇論文 說明 如何利用 這兩個共性 幫助 對應詞組典的 抽取。
“LangGeh” is a new orthography for languages using Chinese character such as Taiwanese or Mandarin. Similar to word separation in English orthography, LangGeh proposes simple phrase separation. Based on LangGeh, We build “LangGeh 09 parallel alignment corpus” and extract a Taiwanese-Mandarin “phrase” dictionary from the parallel corpus. We compare two methods for the extraction of the bilingual collocation dictionary. The first method uses a criterion based on high association, while the second method is based on alignment of the sentences in the parallel corpus. Compared to other language pair such as English and French, there are at least two common characteristics between Taiwanese and Mandarin: they have many common phrases, and their word orders are similar. This paper demonstrates how the common characteristics can be utilized.