透過您的圖書館登入
IP:18.221.112.220
  • 期刊

以基因演算法進行中文斷詞研究以社群網站推文中部旅遊分析為例

A Study of Chinese Semantic Analysis from The Social Media Website for The Traveling Information at Central of Taiwan

摘要


本論文是利用基因演算法及社群網站中的旅遊版推文資料進行中文自動語詞斷詞及語意分析之研究,並探討研究分析的結果。中文的語意分析相對於英文來說是較困難的。因為在中文文法結構上與英文有很大的差別,英文文章中單詞都是分開的,中文語句則可能是由好幾個單字或單詞連結而成,所以斷詞系統對於中文文本分析是不容易的。通常斷詞分析需要依靠大量的詞庫,才能夠產生精確之斷詞,而大量的詞庫建構所需要花費的成本是不可想像的,這對於個人做分析是非常不容易達成的。因此,本研究利用基因演算法進行中文語句自動斷詞,然後透過學習所產生的詞彙結果,選擇最好的詞彙組合,將詞彙存入詞庫,建立新詞庫。本論文並運用詞頻-逆文件頻率(TF-IDF)方法擷取出每篇文章的關鍵字詞,並透過分析電子佈告欄系統(Bulletin Board System, BBS)中旅遊版文章資料來進行中文斷詞的研究並藉由其斷詞的結果進行中部旅遊景點的分析。研究結果顯示透過此一語意分析技術可以由論壇的討論短文中確切的做出斷詞,並且由所斷出的詞彙得出中部地區的前十大旅遊景點,並且透過內文的關鍵詞分析可以歸納出該景點的屬性,並且了解該景點的旅客成員特徵。此一結果將可以有助於該景點的後續維護與發展,以維繫該景點的旅遊觀光產業永續發展。

並列摘要


In this study we are trying to do the Chinese semantic analysis by using the data from the social network media based on the genetic algorithm method. It is more difficult for Chinese semantic analysis than English, since the different is in the grammar structure. In English, a single word just could describe the situation and the Chinese might combine several words to say the same thing. Generally, it could be easy and precisely in word segmentation by a dictionary with lots of glossary. It would be too expensive to develop a massive dictionary for the people. The cost of constructing a massive dictionary is unthinkable, which is very unfavorable for personal analysis. Therefore, this study developed system to create dictionary database automaticity by using the genetic algorithm method for the Chinese word segmentation. This study collects the data for more than 400 posts from the extracts the articles by board of Tai-traveling in the social network media PTT. Meanwhile, we also use the TF-IDF (Term Frequency-Inverse Document Frequency) method to get the key words of each post. The result shows a high precision in Chinese word segmentation and gets a traveling rank for the local area, Taichung, in Taiwan.

參考文獻


方心伶(2008):中文段詞對注音正確率改善之研究。新竹市:國立清華大學統計研究所碩士論文(未出版)。
王彥叡(2014):應用潛在語意分析建構階層式概念集群之分群法。新北市:國立台北大學資訊管理研究碩士論文(未出版)。
沈育信(2015):以 N-gram 為基礎之網路新聞讀者情緒預測方法。新北市:淡江大學資訊管理學系碩士在職專學位論文(未出版)。
林千翔、張嘉惠、陳貞伶(2010):結合長詞優先與序列標記之中文斷詞研究。運算語言學國際期刊&中文語言處理。
許菱祥(2006):中文文法。 大中國圖書公司。台北。

延伸閱讀