透過您的圖書館登入
IP:3.137.172.68
  • 學位論文

讓格書寫下延複詞類自動標記初探

An Initial Study on Automatic Tagging of Extended Word in LangGeh Orthography

指導教授 : 江永進

摘要


斷詞 ( word segmentation ) 以及 詞類標記 是 處理 自然語言 最基礎的問題。 本論文 延續 延複詞 以及 延複詞類 概念, 利用 高頻 以及 長詞優先 加上 語法規則集, 初步 自動標記 延複詞類。 之後 再針對 簡單延複詞 利用 外部結構 訊息, 以 Brill Rule方法 改善 高頻標記 結果。 另外 也對 內部結構 訊息, 以 三字雙成分 抽取 語法規則 改善 兩字寬鬆 自動標記的 結果。 這對 語料庫的製作, 有相當的幫助。

並列摘要


Contrast to the traditional Chinese writing that writes characters consecutively without spaces in-between, LangGeh orthography proposes writing in (simple) extended words and simple short phrases. In comparison, English is written in words. The distinction between a traditional word and an extended word is that the latter includes, in addition to the traditional words in Mandarin, two character phrases and other words of easily recognizable patterns. This inclusion greatly simplifies the syntactic tagging of our corpus. With hand-tagged corpus, this thesis also gives a preliminary study of the automatic tagging of extended words and simple short phrases in LangGeh Mandarin text.

參考文獻


[5] Brill Eric(1995),“Transformation-Based Error Driven Learning and Natural Language: A Case Study in Part of Speech Tagging", Computational Linguistics, 21(4): 543-555.
[8] 林淑卿(2009)。 「從台華平行語料庫擷取對應詞組典」, 國立清華大學統計學研究所碩士論文, 2009。
[9] 陳建忠(2010)。 「延複詞 延複詞類 初探」, 國立清華大學統計學研究所碩士論文, 2010。
[1] CKIP規範(1996), 《 「搜」文解字--中文詞界研究與資訊用分詞標準 》。中文詞知識庫小組 技術報告 96-1, 台北:中央研究院資訊科學研究所,中央研院歷史語言研究所。 (簡稱 分詞規範 或者 CKIP規範)
[2] CKIP斷詞(2010), 中文斷詞系統, 提供 線上斷詞服務。 http://ckipsvr.iis.sinica.edu.tw/

被引用紀錄


李柏宏(2011)。台華 平行語料中 台語 簡短詞組 的 詞類標記〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2011.00666
劉怡伶(2012)。護理人員與照顧服務員簽署預立醫療指示之差異性探討-以南部某區域教學醫院為例〔碩士論文,長榮大學〕。華藝線上圖書館。https://doi.org/10.6833/CJCU.2012.00129
林淑娟(2014)。護理人員安寧療護知識、態度與行為需求量表的發展〔碩士論文,義守大學〕。華藝線上圖書館。https://doi.org/10.6343/ISU.2014.00173
劉芳伶(2011)。護生對疾病末期不施行心肺復甦術行為意向及其相關因素研究-以中部某科技大學進修部四技護生為例〔碩士論文,亞洲大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0118-1511201215470865

延伸閱讀