帳號:guest(18.191.84.33)          離開系統
字體大小: 字級放大   字級縮小   預設字形  

詳目顯示

以作者查詢圖書館館藏以作者查詢臺灣博碩士論文系統以作者查詢全國書目
作者(中文):林淑卿
作者(外文):Lin, Shu-Ching
論文名稱(中文):從台華平行語料庫擷取對應詞組典
論文名稱(外文):Bilingual Collocation Dictionary Extraction From Taiwanese-Mandarin Parallel Corpus
指導教授(中文):江永進
指導教授(外文):Chiang, Yuang-Chin
學位類別:碩士
校院名稱:國立清華大學
系所名稱:統計學研究所
學號:9624518
出版年(民國):98
畢業學年度:97
語文別:中文
論文頁數:40
中文關鍵詞:平行語料庫讓格最長共同子序列對齊華語華文中文台語台文
外文關鍵詞:Parallel CorpusLangGehLCSAlignmentMandarinTaiwanese
相關次數:
  • 推薦推薦:0
  • 點閱點閱:144
  • 評分評分:*****
  • 下載下載:2
  • 收藏收藏:0
對 華文 或 台文 來說, 「讓格書寫」 是 書寫方式上的 新提議, 「讓格書寫」 是以 分 簡單詞組的 方式書寫; 在 讓格書寫 之下, 我們 製作了 「讓格09平行對齊語料庫」, 並 從中擷取 台華對應詞組典; 我們 比較 兩種 抽取 對應詞組典的 方法, 第一個方法 使用 簡單的 高關聯準則, 第二個方法 使用 「平行句對齊」的 途徑; 相較於 其他的語言對, 如 英文 和 法文, 台文 和 華文 之間 具有 兩個共性, 第一: 漢字共同詞 不少、 第二: 詞序接近, 本篇論文 說明 如何利用 這兩個共性 幫助 對應詞組典的 抽取。
“LangGeh” is a new orthography for languages using Chinese character such as Taiwanese or Mandarin. Similar to word separation in English orthography, LangGeh proposes simple phrase separation. Based on LangGeh, We build “LangGeh 09 parallel alignment corpus” and extract a Taiwanese-Mandarin “phrase” dictionary from the parallel corpus. We compare two methods for the extraction of the bilingual collocation dictionary. The first method uses a criterion based on high association, while the second method is based on alignment of the sentences in the parallel corpus. Compared to other language pair such as English and French, there are at least two common characteristics between Taiwanese and Mandarin: they have many common phrases, and their word orders are similar. This paper demonstrates how the common characteristics can be utilized.
第一章 概論
第二章 讓格書寫
2.1讓格書寫的 意義 和 理由
2.2讓格書寫的 規則
第三章 讓格09平行對齊語料庫
3.1 平行語料庫 概述
3.2 讓格09平行對齊語料庫
3.2.1 原始語料
3.2.2 翻譯
3.2.3 讓格
3.2.4 詞組對齊
第四章 高關聯的 台華語 對應詞組
4.1 平行詞組的 關聯 及 對應詞組典 抽取
4.2 關聯的 最佳臨界值
4.3 改善之一:事先抽取 共同詞
4.4 改善之二:部份共同的 低頻詞組
第五章 台華平行語料庫的 詞組對齊
5.1 詞組的 對齊標記法
5.2 台華平行句的 對齊
5.3 自動對齊的 對應詞組 抽取效率
5.4 LCS的另選:最多共同詞組
第六章 結論
參考文獻
[1] 江永進、張春凰、呂菁菁 (2009),“讓格書寫:意義、理由gah簡則”,台灣風物五十九卷一期,pp.111-132,2009年3月。
[2] Keita Tsuji and Kyo Kageura. “Automatic Generation of Japanese-English Bilingual Thesauri Based on Bilingual Corpora”, JOURANL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND THCHNOLOGY,57(7):891-906,2006.
[3] 林宗儀 (1997),用雙連語言模型探討台文自動斷詞與分群,國立清華大學統計學研究所碩士論文,民國86年。
[4] Peter F.Brown, Stephen A.Della Pietra, Vincent J.Della Pietra and Robert L.Mercer. “The Mathematics of Statistical Machine Translation: Parameter Estimation”, Association for Computational Linguistics, 1993.
[5] Dekai Wu and Xuanyin Xia, “LEARNING AN ENGLISH-CHINESE LEXICON FROM A PARALLEL CORPUS”, In AMTA-94, Association for Machine Translation in the Americans, Columbia, MD:Oct.94,206-213.
[6] Peter F.Brown, John Cocke, Stephen A.Della Pietra, Vincent J.Della Pietra, Fredrick Jelinek, John D.Lafferty, Robert L.Mercer, and Paul S.Roossin. “A Statistical Approach to Machine Translation”, Computational Linguistics Volume 16, Mumber 2, June 1990.
[7] 「中英對照讀新聞」,自由時報,2008。
[8] 游政榮 (2006),青鳥(台譯本),時行台語文會出版,2006。
[9] 林慧婷、陳則伊、謝旻男 (2009),發明的故事(台譯本),將出版(時行台語文會),2009。
[10] Python 3.0.1(2009). http://www.python.org/.
 
 
 
 
第一頁 上一頁 下一頁 最後一頁 top
* *