透過您的圖書館登入
IP:18.222.209.172
  • 學位論文

局部最長連續共同子序列與新詞組收集

Locally Longest Common Consecutive Subsequence and Collection of New Phrases

指導教授 : 江永進

摘要


時代在變, 用詞在變, 詞典的詞條 應該也 跟著變, 跟不上時代的 詞典 代表 跟不上的 基礎文化。 針對 單篇文章 或者 二篇文章, 我們 提出 局部最長 連續 共同子序列 (locally longest consecutive common subsequence: LLCCS) 的方法, 近似 出名的 最長 共同子系列 (longest common subsequence: LCS) 算程, 可以有效率 擷取 文章中的 重複使用的 字串。 由此 所擷取出的 字串 我們 再進一步 處理篩選, 得到 較合 語法意義的 新詞組, 以及 新詞。 因為 網路上 可以自動 收集 大量新聞 或 文章, 新詞組、新詞 的 擷取 應可快速 幫助 詞典新詞條 的 累積。

並列摘要


Adapting from the well-known longest common subsequence (LCS) algorithm, we propose an efficient algorithm that is capable of extracting locally longest consecutive common subsequence (LLCCS) from one or two different articles. Further processing on the extracted subsequence makes them closer to syntatical phrases/words. With world wide web full of adundant articles, we hope this is an efficient way to enrich the entries of Chinese lexicon.

參考文獻


[2] K. J. Chen and W. Y. Ma (2002). “Unknown Word Extraction for Chinese Documents”. COLING, pp.169-175.
[3] Fuchun Peng, Fangfang Feng and Andrew McCallum (2004). “Chinese Segmentation and New Word Detection Using Conditional Random Fields”. COLING, pp.562-568.
[1] K. J. Chen and M. H. Bai (1998). “Unknown Word Detection for Chinese by a Corpus-based Learning Method”. International Journal of Computational linguistics and Chinese Language Processing, Vol.3, #1, pp.27-44.
[4] T. H. Chang and C. H. Lee (2003). “Automatic Chinese unknown word extraction using small-corpus-based method”, Proceedings of IEEE International Conference on Natural language processing and knowledge engineering, pp.459-464.
[5] 楊傑程, “應用樣式探勘與機器學習方法於中文未知詞擷取之研究”, 國立中央大學資訊工程學系碩士論文, 2009

被引用紀錄


游聲峰(2014)。語音辨識 輔助的 台語語料庫 收集方法 探討〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2014.00126
王建傑(2013)。讓格書寫下 之 斷詞探討〔碩士論文,國立清華大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0016-2511201311361262
陳薇婷(2014)。從 無間書寫 到 讓格寬格書寫〔碩士論文,國立清華大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0016-2912201413492040

延伸閱讀