透過您的圖書館登入
IP:3.17.4.144
  • 學位論文

讓格書寫下 之 斷詞探討

A Study of Chinese Word Segmentation under LangGeh orthography

指導教授 : 江永進
若您是本文的作者,可授權文章由華藝線上圖書館中協助推廣。

摘要


中文斷詞 是 資訊處理 基礎動作, 但 中文詞 的定義 模糊, 使得 應用 因此受限。 台灣 主要的 斷詞標準 是 中研院 CKIP規範(CKIP, 1997[8]), 此標準 是以 語意、語法 及 使用頻率 為基準 所建構。 本文 提出 新的 斷詞標準, 主要想法 是 避免 單字詞落單, 減少瑣碎的 斷詞結果, 增加 字數 做為 斷詞標準的 所能扮演的 角色, 使 斷詞標準 能夠 更加 簡潔好用。 在 新提出的 斷詞標準下, 我們 準備了 一份 近3萬字元的 網路文章, 加以 讓格, 再加以 (新標準)斷詞, 然後 撰寫 簡單的 斷詞系統, 結果 斷詞F-量度 可以達到 98%。 相對的, 簡單的 最長詞匹配法 只有70%左右; 而 傳統書寫 的 傳統斷詞 使用 大量語料 訓練模型 效率可到96%。 本文方法 使用簡單, 實作也簡單。 關鍵字:中文斷詞、斷詞標準、避免 單字詞落單、讓格

並列摘要


The concept of words in Mandarin Chinese is not really well defined. And as a result the important basic word segmentation module of the natural language processing of Chinese becomes somewhat difficult to implement. The primary standard of word segmentation in Taiwan is the CKIP standard of Academia Sinica, which uses semantics, syntax, and usage frequency to define a word. We propose an added principle of singleton-avoiding that dictates minimizing single character word in a segmented text. More specifically, two character string and three character string are principally treated as a word. By making use of the number of characters in defining a word, the standard becomes easy to follow. Furthermore, by writing the Chinese sentences with spaces between simple short phrases (called LangGeh orthography) instead of traditional way of no spaces in-between, and the segmentation module becomes much easier to implement. An implemented segmentation module written in programming language Python is tested on a testing text corpus of around 30000 characters, collected from internet and transformed into LangGeh orthography. The resulting performance is 98% in F-measure, and compared quite favorably to the traditional word segmentation of about 96% using large amount of training data. For marginalized languages such as Taiwanese and Hakka, LangGeh and the new segmentation standard seem to be the way to follow. Keywords: Chinese word segmentation, singleton-avoiding principle, LangGeh orthography, segmentation standard.

並列關鍵字

無資料

參考文獻


[3]李佳鴻(2010), “讓格書寫的台語自動標音初探”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[4]陳建忠(2010), “延複詞 與 延複詞類 初探”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[5]謝博行(2013), “局部最長 連續共同子序列 與 收集新詞”,國立清華大學 統計學 研究所 碩士論文,新竹市。
[6]林千翔(2006), “基於特製隱藏式馬可夫模型之中文斷詞研究”,國立中央大學 資訊工程 研究所 碩士論文,桃園縣。
[1]Hongmei Zhao and Qun Liu. 2010.“The CIPS-SIGHAN CLP 2010 Chinese Word Segmentation Bakeoff”. In Proceedings of the First CPS-SIGHAN Joint Conference on Chinese Language Processing. Beijing, China.

被引用紀錄


陳薇婷(2014)。從 無間書寫 到 讓格寬格書寫〔碩士論文,國立清華大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0016-2912201413492040

延伸閱讀