針對 平行語料庫 中的 台語、華語 讓格平行句, 林淑卿(2009)、 楊哲瑋(2010) 使用 最長共同子系列 (LCS, longest common subsequence) 方法 來幫助 平行句對齊。 「讓格書寫」是 書寫方式上的 新提議, 是以 簡單詞組 為單位的 書寫方式。 本文 繼續 平行句的 對齊研究, 對象換成 英文、 華文。 借用chunking 技術幫助, 我們 首先將 英文句 轉換做 簡短詞組 序列, 然後 華英 簡短詞組句 的 對齊 就可使用 同樣的LCS方法。 平行句的 LCS對齊 需要一個 gain函數, 現在 基礎單位 是 簡短詞組, 因此, 我們 再使用 類似的LCS方法, 計算 華英 簡短詞組對 的 LCS分數, 然後用來 執行 平行句對齊。 我們 也使用本方法 來幫助標記 一個 新聞語料庫 的 華英對齊。
In previous studies Lin (2009) and Yang (2010) used the method of longest common subsequence (LCS) to help aligning parallel sentences in a parallel corpus between Taiwanese and Mandarin. Contrast to the traditional writing of no space inside a sentence, the parallel corpus consists of sentences written in so-called “LangGeh”(讓格) orthography, or, using simple short phrases(SSP) as a unit and having spaces in-between. This paper continues the alignment study on parallel sentences between Mandarin and English. With the help of chunking, we first segment an English sentence into sequence of simple short phrases, and align the Mandarin-English parallel sentences in SSP using the same LCS method. In sentence alignment using LCS, a gain function between the SSP’s is required. We again use LCS to compute a score for each pair of simple short phrases. The method is used to help aligning a news parallel corpus in Mandarin and English.