透過您的圖書館登入
IP:3.129.67.167
  • 期刊

社會科學研究中的文字探勘應用:以文意為基礎的文件分類及其問題

Text Mining for Social Studies: Meaning-based Document Classification and Its Problems

摘要


隨著電子典藏技術的精進,文字探勘技術逐漸受到重視,本文以社會科學研究在文意區別上的需求,評估監督式機器學習對非結構、複雜文本的分類效果,並就所見問題提出分析與建議。本文從文字探勘與內容分析文意區別上的差異與共通性出發,繼而以新聞報導為分析資料,針就特定文件意向,遵循一般文字探勘程序,以支持向量機與簡易貝式分類器執行文件分類評估。分析結果指出,文字探勘對於複雜文意的判讀效果值得肯定,但經由共詞網絡分析也發現,文件的編撰風格將影響文件分類的效果。建議研究者在資料處理初期,應反覆評估研究目的、資料特性與分類器模型間的契合度。

並列摘要


Along with the growing development of electronic information storage, text mining has increasingly gained attention from scholars and practitioners across various disciplines. In response to the need for meaning differentiation in social studies, the study aims to evaluate supervised machine learning classifiers in terms of the performance of document classification. Setting out from the comparison between traditional content analysis and text mining, the evaluation follows a normal procedure of text mining and applies Support Vector Machine and Naïve Bayes classifiers on non-structural, complex social texts extracted from news media. The outcomes of the analysis validate that text mining manages classification well for documents with complex meaning. However, a further co-word network analysis in the study finds that the editing style of data may affect classifiers' performance. It is suggested that, in the early stage of data processing, greater care must be given to the fit between research problems, editing styles, and classifiers.

參考文獻


陳世榮譯Hanneman, Robert A.、Riddle, Mark (2013)。社會網絡分析方法:UCINET 的應用。高雄=Kaohsiung:巨流=Chuliu。
歐崇明編譯、時文中編譯、陳龍編譯Russell, Stuart、Norvig, Peter(2011)。人工智慧:現代方法。新北市=New Taipei:全華圖書=OpenTech。
中央研究院資訊所2003《中文斷詞系統》。2013 年5 月1 日—2013 年10 月31 日,取自http://ckipsvr.iis.sinica.edu.tw/ (Academia Sinica Institute of Information Science, 2003, Chinese Knowledgeand Information Processing. Retrieved May 1, 2013–October 31, 2013, from http://ckipsvr.iis.sinica.edu.tw/)
尹其言、楊建民(2010)。應用文件分群與文字探勘技術於機器學習領域趨勢分析以SSCI 資料庫為例。長榮大學學報。14(2),1-16。
自由時報2007–2008 《自由時報電子報》。2013 年3 月1 日—2013 年8 月31 日,取自http://news.1tn.com.tw/search (Liberty Times, 2007–2008, Liberty Times Net. Retrieved March 1,2013–August 31, 2013, from http://news.1tn.com.tw/search)

被引用紀錄


蕭群殷(2017)。電子化政府查報案件自動分類設計之研究-以台北市政府為例〔碩士論文,淡江大學〕。華藝線上圖書館。https://doi.org/10.6846/TKU.2017.00727
鄒明叡(2017)。總體經濟變數與台灣股票市場之關聯性分析〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201700809
王釗東(2017)。以大數據探究財經新聞對台灣股票市場表現之影響〔碩士論文,國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU201800089
江東美(2017)。財經訊息對匯率的影響-以歐元為例〔碩士論文,國立臺中科技大學〕。華藝線上圖書館。https://www.airitilibrary.com/Article/Detail?DocID=U0061-2406201721174400
Lin, C. H. (2017). 以文字探勘探討社群媒體文件分類之研究─以線上遊戲為例 [master's thesis, National Taipei University of Business]. Airiti Library. https://www.airitilibrary.com/Article/Detail?DocID=U0064-0201201815280103

延伸閱讀