透過您的圖書館登入
IP:3.144.48.135
  • 期刊

Support Vector Machines分類技術應用於中文垃圾郵件辨別之探討

摘要


近年來隨著網際網路的發達與普及,電子郵件的使用已經成為趨勢。但是垃圾郵件所衍生的問題也相對產生,對於擁有電子信箱的使用者而言,造成了極大的困擾,如何避免收到不需要的垃圾郵件,成為生活上的一大課題。根據以往使用Support Vector Machines(SVMs)在文件分類的相關文獻中顯示,SVMs技術在文件分類上有高效能的表現,因此本研究將電子郵件視為文件的一種,希望藉由SVMs技術能夠有效地辨別垃圾郵件。 本研究針對電子郵件的不同欄位內容(包含:只有主旨欄位、只有內文欄位、主旨及內文兩者欄位)、不同的特徵選取方式(包含:只選取名詞、只選取動詞及選取名詞及動詞)、不同的特徵選取策略(包含:二元方式(Binary)、詞彙頻率(TF)及詞彙頻率與文件頻率倒數之乘積(TF×IDF))、不同核心函數的分類器(包含:Linear SVMs 分類器、Gaussian RBF SVMs 分類器及Polynomial SVMs分類器)、不同的調和係數C值等,透過SVMs分類器辨別中文垃圾郵件之實驗,來分析其不同的實驗結果。從辨別垃圾郵件的實驗過程中,透過Recall、Precision、F1值三種不同的效能量測方式,比較不同特徵選取方法在辨別垃圾郵件的效能,以驗證不同特徵於SVMs分類器效能之差異。

被引用紀錄


黃聖翔(2011)。TFIDF與熵值法在支援向量機上分類評估-以統計試題為例〔碩士論文,國立臺北科技大學〕。華藝線上圖書館。https://doi.org/10.6841/NTUT.2011.00706

延伸閱讀