透過您的圖書館登入
IP:18.216.251.37
  • 學位論文

從台華平行語料庫擷取對應詞組典

Bilingual Collocation Dictionary Extraction From Taiwanese-Mandarin Parallel Corpus

指導教授 : 江永進
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


對 華文 或 台文 來說, 「讓格書寫」 是 書寫方式上的 新提議, 「讓格書寫」 是以 分 簡單詞組的 方式書寫; 在 讓格書寫 之下, 我們 製作了 「讓格09平行對齊語料庫」, 並 從中擷取 台華對應詞組典; 我們 比較 兩種 抽取 對應詞組典的 方法, 第一個方法 使用 簡單的 高關聯準則, 第二個方法 使用 「平行句對齊」的 途徑; 相較於 其他的語言對, 如 英文 和 法文, 台文 和 華文 之間 具有 兩個共性, 第一: 漢字共同詞 不少、 第二: 詞序接近, 本篇論文 說明 如何利用 這兩個共性 幫助 對應詞組典的 抽取。

關鍵字

平行語料庫 讓格 最長共同子序列 對齊 華語 華文 中文 台語 台文

並列摘要


“LangGeh” is a new orthography for languages using Chinese character such as Taiwanese or Mandarin. Similar to word separation in English orthography, LangGeh proposes simple phrase separation. Based on LangGeh, We build “LangGeh 09 parallel alignment corpus” and extract a Taiwanese-Mandarin “phrase” dictionary from the parallel corpus. We compare two methods for the extraction of the bilingual collocation dictionary. The first method uses a criterion based on high association, while the second method is based on alignment of the sentences in the parallel corpus. Compared to other language pair such as English and French, there are at least two common characteristics between Taiwanese and Mandarin: they have many common phrases, and their word orders are similar. This paper demonstrates how the common characteristics can be utilized.

並列關鍵字

Parallel Corpus LangGeh LCS Alignment Mandarin Taiwanese

參考文獻


[2] Keita Tsuji and Kyo Kageura. “Automatic Generation of Japanese-English Bilingual Thesauri Based on Bilingual Corpora”, JOURANL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND THCHNOLOGY,57(7):891-906,2006.
[1] 江永進、張春凰、呂菁菁 (2009),“讓格書寫:意義、理由gah簡則”,台灣風物五十九卷一期,pp.111-132,2009年3月。
[3] 林宗儀 (1997),用雙連語言模型探討台文自動斷詞與分群,國立清華大學統計學研究所碩士論文,民國86年。
[4] Peter F.Brown, Stephen A.Della Pietra, Vincent J.Della Pietra and Robert L.Mercer. “The Mathematics of Statistical Machine Translation: Parameter Estimation”, Association for Computational Linguistics, 1993.
[5] Dekai Wu and Xuanyin Xia, “LEARNING AN ENGLISH-CHINESE LEXICON FROM A PARALLEL CORPUS”, In AMTA-94, Association for Machine Translation in the Americans, Columbia, MD:Oct.94,206-213.

被引用紀錄


游聲峰(2014)。語音辨識 輔助的 台語語料庫 收集方法 探討〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2014.00126
Hsu, H. P. (2012). 華英平行句 的 詞組對齊 初探 [master's thesis, National Tsing Hua University]. Airiti Library. https://doi.org/10.6843/NTHU.2012.00054
吳戴任(2011)。論前音節輸入法〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2011.00667
李柏宏(2011)。台華 平行語料中 台語 簡短詞組 的 詞類標記〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2011.00666
楊哲瑋(2010)。台華平行讓格語料的自動對齊〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2010.00062

延伸閱讀