透過您的圖書館登入
IP:18.220.178.207
  • 學位論文

使用潛在語意分析與自我組織映射於中文文件摘要

Using Latent Semantic Analysis and Self-Organizing Map in Chinese Text Summarization

指導教授 : 蘇豐文

摘要


本論文提出了兩種分群式文件摘要器(clustering text summarizer)來抽取出文件中重要的語句產生摘要。第一個方法是使用自我組織映射(Self-organizing Map)技術,透過此方法將文件句子做分群,在從各群之中挑選最佳的句子當作摘要。第二個方法,我們結合潛在語意分析(Latent Semantic Analysis)與自我組織映射技術,透過潛在語意分析將文件中的句子隱含的語意挖掘出來,再將分析後的句子透過自我組織映射進行分群,在從各群之中挑選最佳的句子當作摘要。 挑選句子之前必須決定各群挑選的優先權,優先權的決定方式則為將每一群的所有句子分數做加總,總分數越高則該群的優先權越高。句子分數的計算方式則是根據「句子的關鍵字含量」、「句子在文件中的位置」、「句子的標題含量」、「句子的TFIDF(term frequency – inverse document frequency)強度」來決定之。 我們之所以考慮了分群,是因為我們假設摘要者在挑選了一句子當作摘要時,會儘量不再挑選與該句極為相似的句子。句子分群後,使得挑選摘要句子得以從不同分群的句子中挑選,以避免重複挑選出相似的句子。 在實驗部分,我們收集了100篇新台灣新聞週刊中關於政治類的文章,並將前述的兩種分群式文件摘要器應用於該政治類的文章中。實驗評估結果顯示,我們所提出的方法皆比基準方法(baselines)表現較優,在文件壓縮比率為20%以及不考慮特徵權重的情況下,準確率分別為46.70%與53.39%。

並列摘要


參考文獻


[2] Chinese Knowledge and Information Processing (CKIP) Chinese Parser: http://rocling.iis.sinica.edu.tw/CKIP/
[3] Dell Zhang et al, "Semantic, Hierarchical, Online Clustering of Web Search Results" Proceedings of the 6th Asia Pacific Web Conference (APWEB), Hangzhou: Springer-Verlag, 2004.
[4] Dou Shen et al., "Document Summarization using Conditional Random Fields" Proceedings of the 20th International Joint Conference on Artificial Intelligence (IJCAI), 2007, 2862-2867.
[5] Inderjeet Mani et al., "Advances in Automatic Text Summarization" MIT Press, Cambridge, MA, USA, 1999.
[6] JIAN-HUI WANG et al., "Sentence Clustering Based Automatic Summarization" Proceedings of the Second International Conference on Machine Learning and Cybernetics, Xi’an, 2-5, November 2003.

被引用紀錄


郭松霖(2011)。以自組織映射圖(SOM)進行資訊安全視覺化〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/cycu201100832
楊盛安(2013)。利用語意相關詞和基因演算法來逼近中文搜尋引擎排名〔碩士論文,元智大學〕。華藝線上圖書館。https://doi.org/10.6838/YZU.2013.00049

延伸閱讀