透過您的圖書館登入
IP:3.21.231.245
  • 學位論文

結合本體論與語意相似程度對文件萃取關鍵字

Integration of Ontology and Semantic Similarity for extracting Keywords from Documents

指導教授 : 留忠賢

摘要


在一篇文章中,可以包含許多的索引詞彙,但只會有少數的關鍵字可以表示文章內容,根據這些關鍵字我們還可以對文章做分類,而這些關鍵字需要經由一套萃取方法來取得。 在本論文中,我們結合本體論中的知識和語意相似程度的計算方法,取得文章內容的關鍵字詞。藉由本體論找出詞彙所有表達的知識,配合語意相似程度的計算可選取合適的知識,藉此搭配便能找出文章內容的關鍵字。 本論文首先利用Lucene全文檢索工具將文章內容切割為多個單詞,排除不必要的詞彙,再透過Stemming以兩階段不同的詞彙還原法將詞彙還原成基本型態,然後利用POS Tagger標記每個詞彙的詞性,接著搭配WordNet詞典及Lin的語意相似度演算法,取得詞彙在文章中最合適的涵義,最後透過知識本體論篩選出相同領域的詞彙作為文章的關鍵字詞並記錄為文字檔。

並列摘要


A document may have a large number of words, but it can have only some keywords which describe content of the document. According to these keywords, we can also distinguish the type of the document. Then, these keywords need a sequence of extracting method to get them. In this thesis, an approach to extracting keywords from documents by combing knowledge in Ontology and sematic similarity was presented. We can find all knowledge which is described of words by Ontology, and then select more suitable knowledge through the calculation method of sematic similarity. By this collocation, we can find keywords from documents. First, we use Lucene, which is a tool for full-text search, to get words from the content of the document and to remove stop words. A two stage Stemming method is used to stem words to their root forms. The words are tagged using POS Tagger. The meaning of the words are obtained by searching the computed using Lin's sematic similarity. Finally, a subset of keywords are selected by using the domain Ontology information.

並列關鍵字

Ontology Lucene POS Tagger WordNet Sematic Similarity

參考文獻


[37] 楊智強. 在一個知識管理系統應用Ontology建立分類之設計. 中原大學資訊工程研究所碩士論文, 2011年8月.
[25] 張藝馨. 基於MapReduce做文本自動分類與概念分析. 中原大學資訊工程研究所碩士論文, 2014年8月.
[36] 史元皓. 在知識管理系統中應用Ontology做文件自動分類. 中原大學資訊工程研究所碩士論文, 2011年8月.
[27] 黃國凱. 使用Hadoop 對知識管理系統做文件自動分類. 中原大學資訊工程研究所碩士論文, 2012年7月.
[16] Junpeng Chen and Juan Liu. Combining conceptNet and WordNet for word sense disambiguation. International Joint Conference on Natural Language Processing, Volume 5, No. 8-13, 2011, pp. 686-694.

被引用紀錄


張藝馨(2015)。基於MapReduce做文本自動分類與概念分析〔碩士論文,中原大學〕。華藝線上圖書館。https://doi.org/10.6840/CYCU.2015.00070

延伸閱讀