透過您的圖書館登入
IP:18.223.97.46
  • 學位論文

台華 平行語料中 台語 簡短詞組 的 詞類標記

Tagging Simple Short Phrase in Taiwanese Using their Mandarin Counterparts in a Parallel Corpus

指導教授 : 江永進

摘要


斷詞 (word segmentation) 以及 詞類標記 是 語言處理 的 基礎問題。 本篇論文 延續 讓格書寫下 延複詞類 自動標記, 利用 華語 簡短詞組的 延複詞類 輔助 標記 台語 簡短詞組的 延複詞類。 利用 香腸 及 替換 比對 的 兩種方法, 完成 自動標記。 正確率 分別落在 99% 以及 100% 。 雖然 替換 比對 的 召回率 只有 55%, 但是 正確率 100%的方法 對於 語料庫的 製作, 才是 有相當的 幫助。

並列摘要


In preparing Taiwanese-Mandarin parallel corpus written in Langgeh orthography (that is, with spaces between simple short phrases), previous study explores the tagging of Mandarin simple short phrases. This paper continues the study on tagging Taiwanese simple short phrases using their Mandarin counterparts. With aim as aid to the semi-automatic tagging process, we emphasize the full correctness of tagging procedures; a partially correct tagging procedure requires manual inspection of the tagging results, an effort no less than full manual tagging. After exploring several possibilities, we come up with a simple tagging procedure that attains 100% correctness in tagging our experimental corpus, although with only 55% recall rate among all Taiwanese simple short phrases.

並列關鍵字

無資料

參考文獻


[3] CKIP詞典
[6] 林淑卿(2009)。 從台華平行語料庫擷取對應詞組典。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2009。
[7] 陳建忠(2010)。 延複詞 延複詞類 初探。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2010。
[8] 孫玉萍(2010)。 讓格書寫 下 延複詞類 自動標記 初探。 新竹市: 國立 清華大學 統計學 研究所 碩士論文, 2010。
[9] 楊哲瑋(2010)。 台華平行 讓格語料 的 自動對齊。 新竹市: 國立 清華大學 統計學 研究所 碩士論文,2010。

延伸閱讀