對 台文 與 華文 來說, 「讓格書寫」 是 新提議的 書寫方式。 有別於英文的 分詞書寫 與 台華文傳統的 分句書寫, 「讓格書寫」 主要是以 分簡單詞組的 方式 來書寫。 在 讓格書寫 下, 我們 製作了 台華 平行語料庫。 本文 仿效 Brown et. al.(1990, 1993)的 統計式 翻譯方法, 使用 此 平行語料庫 初探 台華對譯 問題。 而 由於 台華 對譯文 之間, 有 兩個 共同特徵: 相同 漢字寫法 的 詞組 多、 詞組的順序 也 大多相同。 基於 這兩個 特徵, 我們 提出 「香腸詞組」 來簡化 翻譯問題。 此方法的好處 就是 實作概念 簡單, 且 計算量少。
“LangGeh” is a new orthography for languages using Chinese character such as Taiwanese or Mandarin. Similar to word separation in English orthography, LangGeh proposes simple phrase separation. Based on LangGeh, We build a Taiwanese-Mandarin parallel corpus and use it to study the translation between Taiwanese and Mandarin using the statistical machine translation framework of Brown et. al. (1990, 1993). There are at least two common characteristics between Taiwanese and Mandarin that one can utilize in translation: many common phrases and word orders are similar. We simplify the translation framework using the concept of “Sausage Phrase”. It has the advantage of being conceptual simple and easy to calculate.