透過您的圖書館登入
IP:3.147.73.35
  • 期刊

探勘中文新聞文件

Data Mining in Chinese News Articles

摘要


新聞報導每天發生的重要事件,大量的新聞文件中,往往蘊含重要的資訊。文件資料探勘技術用來發覺隱藏在大量文件中的特徵。然而,目前的文件探勘研究集中在歐美語系文件,且代表文件的關鍵詞彙的擷取,都是人工處理。本研究以中文新聞文件為探勘對象,試圖發覺其中隱含的知識。針對新聞文件的特殊結構,在收集關鍵詞彙方面,以混合式斷詞法進行中文斷詞,經過關鍵既有詞彙擷取與關鍵新生詞彙擷取步驟,獲得每篇新聞文件的關鍵詞彙,代表該文件重要概念,供後續探勘之用。在資料探勘方面,首先為切合新聞文件知識開採需求,使用概念階層樹建構背景知識與關鍵詞彙。然後以關聯法則為基礎,我們提出三個改良式關聯模式:第一個是新生詞彙關聯法則,第二個是結構化資料與高頻詞彙關聯,第三個是結構化資料與某同類詞彙關聯;另外,以線性迴歸及卡方分配技術,分別探勘關鍵詞彙的報導趨勢與分佈情況。最後並以實驗驗證此探勘架構的可行性。

並列摘要


News reports important daily events. Implicit information hides in huge collection of news articles. Text data mining technology aims at discovering knowledge hidden in large collection of texts. However, current reported research focus on English texts and keywords are given manually. This paper studied text data mining in Chinese news articles. Utilizing the special structure of news articles, existing keywords and new keywords, representing the content of a news article, are automatically extracted using hybrid segmentation technique. Then, the mining process guided by domain knowledge proceeds. We proposed three types of extended association rules: new keywords association rules, association rules of structured data and high frequency keywords, and association rules of structured data and homogeneous keywords. Further, linear regression technique and Chi-square test technique are used to analyzing the reporting trend of keywords and the distribution of important concepts. Experiments are conducted to verify the feasibility of the proposed architecture.

參考文獻


Agrawal, R.,Imielinski, T.,Swami, A.(1993).Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data.Washington:
Aumann, Y.(1999).Proceedings of Third European Conference on KDD (PKDD-99).
Brachman, R. J.,Khabaza, T.,Kloesgen, W.,Piatetsky-Shapiro, G.,Simoudis, E.(1996).Mining Business Database.Communications of the ACM.39(11)
Brin, S.,Motwani, R.,Ullman, J. D.,Tsur, S.(1997).SIGMOD 1997, Proceedings of the ACM-SIGMOD International Conference on Management of Data.Tucson, Arizona:ACM Press.
Chen, K. J.,Kiu, S. H.(1992).Fifth International Conference on Computational Linguistics.

被引用紀錄


蔡易辰(2016)。三元決策理論應用於國道計程收費議題之情感分析研究〔碩士論文,淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2016.00892
莊依珊(2015)。滿意度指數為基礎之國道計程電子收費服務預警機制研究〔碩士論文,淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2015.00571
簡立(2012)。中文意見探勘系統設計〔碩士論文,淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2012.01235
童瓊慧(2008)。資訊檢索結合文字探勘之應用-以中醫婦科專題文獻 資料庫為例〔碩士論文,淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2008.00874
許邦輝(2006)。以主成分分析法為基礎之文件自動分類模式〔碩士論文,國立清華大學〕。華藝線上圖書館。https://doi.org/10.6843/NTHU.2006.00017

延伸閱讀


國際替代計量