以遺傳演算法為基礎的中文斷詞研究 = A Study on Chinese Word Segmentation: Genetic Algorithms Approach｜Airiti Library 華藝線上圖書館

透過您的圖書館登入 IP:3.145.84.112

透過您的圖書館登入

IP:3.145.84.112

繁體中文
English
简体中文

精確檢索 : 冠狀病毒
模糊檢索 : 冠狀病毒
冠狀病毒感染

冠狀病毒疾病
查詢出版品: 冠狀病毒

主題瀏覽

帕運登場，和華藝一起認識帕拉林匹克運動會！

期刊

以遺傳演算法為基礎的中文斷詞研究

A Study on Chinese Word Segmentation: Genetic Algorithms Approach

陳稼興(Jiah-Shing Chen) ；謝佳倫(Chia-Lun Hsieh) ；許芳誠(Fang-Cheng Hsu)

《資訊管理研究》 2卷2期 (2000/07) Pp. 27-44

https://doi.org/10.6188/JEB.2000.2(2).02

摘要

斷詞在中文自然語言處理上，是個非常重要的前期作業。本研究提出以遺傳演算法為基礎的中文斷詞模型，用以處理中文斷詞。在我們提出的模型中，詞庫是自動建立的，除了避免人為介入導致的不客觀性外，也避免浪費寶貴的人力資源。在斷詞處理上，則是利用詞庫中的「詞出現次數」和「詞長」兩個因子編成適應函數，作為遺傳演算法演化的依據。一般斷詞方法，在斷短詞上的效果不錯，一旦遇到長詞，正確率就會大幅下降；但是若改採長詞優先，則因長詞可能包含短詞，導致短詞可能斷不出來。本研究模型的特色是，長詞有較大的機會被優先斷出，而任何短詞只要在文章中出現的次數夠多，還是有機會被斷出。此外，在模型中我們運用遺傳演算法進行中文斷詞，由於遺傳演算法可以讓我們保留最好的前三個（或更多）斷詞結果，而不是僅僅保留一個斷詞結果，讓後階段的中文處理有更多的選擇，這樣的特性有助於處理「斷詞的歧義性（ambiguity）」的問題。為驗證模型的效益，我們採用中時電子報下載的電子檔案為樣本進行實驗。實驗分析結果顯示，本研究模型確實已達可接受水準。

關鍵字

中文斷詞；遺傳演算法；中文自然語言處理

並列摘要

For Chinese natural language processing systems, word segmentation is a very important pre-processing step. In this study, a genetic algorithm-based word segmentation model is proposed. In the model, a dictionary for word segmentation is automatically generated from the training articles. GA's population search feature makes it easy to find several better segmentation candidates, which are helpful to the following steps in Chinese language processing. Experimental results on 300 articles show that our GA-based approach to Chinese word segmentation is highly feasible.

並列關鍵字

Chinese word segmentation ； genetic algorithms ； Chinese language processing

參考文獻

王良志、貝子勝、黎偉權、黃麗卿(1991)。以剖析為導向的中文斷詞法。電子發展月刊。163，40-45。

Google Scholar

范長康、蔡文祥()。

Google Scholar

許菱祥(1986)。中文文法。大中國圖書公司。

Google Scholar

陳克建、陳正佳、林隆基(1986)。中央研究院資訊所技術報告。

Google Scholar

陳永德(1997)。中文斷詞中長詞優先、詞頻比對與前詞優先規則之使用。國立台灣大學心理學研究所。

Google Scholar

被引用紀錄

黃筑均（2017）。使用文字探勘結合多元有順序類別支持向量機預測股價漲跌趨勢之應用〔碩士論文，淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2017.00558

許桓瑜（2012）。長句斷詞法和遺傳演算法對新聞分類的影響〔碩士論文，淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2012.00488

林孟翰（2011）。基於中文斷詞技術之新聞網頁分類系統〔碩士論文，淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2011.00531

吳泳慶（2007）。中文垃圾郵件客製化過濾系統之研究〔碩士論文，淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2007.00125

蘇子皓（2006）。以RDF規範為基礎之專利授權知識結構解析與表達技術〔碩士論文，國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2006.00013

延伸閱讀

黃健哲（2011）。以遺傳演算法為基礎結合交互資訊之自動化中文斷詞系統〔碩士論文，中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201100937
徐志帆、張鐘（2019）。基於主動式學習之古漢語斷句系統發展與應用研究。圖資與檔案學刊，(95)，117-145。https://doi.org/10.6575/JILA.201912_(95).0004
許桓瑜（2012）。長句斷詞法和遺傳演算法對新聞分類的影響〔碩士論文，淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2012.00488
唐若華（2010）。基於詞性之斷詞方法以改善華語語音合成系統〔碩士論文，國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2010.00487
周建宇（2009）。Chinese Sentence Segmentation using Machine Learning Methods〔碩士論文，國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2009.00568

國際替代計量

以遺傳演算法為基礎的中文斷詞研究