透過您的圖書館登入
IP:3.20.221.178
  • 學位論文

華英平行句 的 詞組對齊 初探

An Initial Study on Phrase Alignment of Parallel Sentences of Mandarin and English

指導教授 : 江永進

摘要


針對 平行語料庫 中的 台語、華語 讓格平行句, 林淑卿(2009)、 楊哲瑋(2010) 使用 最長共同子系列 (LCS, longest common subsequence) 方法 來幫助 平行句對齊。 「讓格書寫」是 書寫方式上的 新提議, 是以 簡單詞組 為單位的 書寫方式。 本文 繼續 平行句的 對齊研究, 對象換成 英文、 華文。 借用chunking 技術幫助, 我們 首先將 英文句 轉換做 簡短詞組 序列, 然後 華英 簡短詞組句 的 對齊 就可使用 同樣的LCS方法。 平行句的 LCS對齊 需要一個 gain函數, 現在 基礎單位 是 簡短詞組, 因此, 我們 再使用 類似的LCS方法, 計算 華英 簡短詞組對 的 LCS分數, 然後用來 執行 平行句對齊。 我們 也使用本方法 來幫助標記 一個 新聞語料庫 的 華英對齊。

並列摘要


In previous studies Lin (2009) and Yang (2010) used the method of longest common subsequence (LCS) to help aligning parallel sentences in a parallel corpus between Taiwanese and Mandarin. Contrast to the traditional writing of no space inside a sentence, the parallel corpus consists of sentences written in so-called “LangGeh”(讓格) orthography, or, using simple short phrases(SSP) as a unit and having spaces in-between. This paper continues the alignment study on parallel sentences between Mandarin and English. With the help of chunking, we first segment an English sentence into sequence of simple short phrases, and align the Mandarin-English parallel sentences in SSP using the same LCS method. In sentence alignment using LCS, a gain function between the SSP’s is required. We again use LCS to compute a score for each pair of simple short phrases. The method is used to help aligning a news parallel corpus in Mandarin and English.

參考文獻


[5] 楊哲瑋(2010)。「台華平行讓格語料的自動對齊」新竹市:國立清華大學統計學研究所碩士論文 (2010)
[3] Steven Bird, Ewan Klein, Edward Loper. (2009) , "Natural Language Processing With Python - Analyze Text with the Natural Language Toolkit" , Publisher: O'Reilly Media (2009)
[4] 林淑卿(2009)。「從台華平行語料庫擷取對應詞組典」新竹市:國立清華大學統計學研究所碩士論文 (2009)
參考文獻
[1] Peter F. Brown , John Cocke , Stephen A. Della Pietra , Vincent J. Della Pietra , Fredrick Jelinek , John D. Lafferty , Robert L. Mercer , and Paul S. Rossin.(1990) "A Statistical Approach To Machine Translation" , Computational Linguistics Volume 16 (Number 2 , June 1990)

被引用紀錄


唐孝蘭(2012)。國中生節能減碳教學效果之研究~以台北市國中生為例〔博士論文,國立臺灣師範大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0021-1610201315280298

延伸閱讀