隨著網際網路上多國語言文件的增加,多國語言資訊檢索技術的應用成為一個重要的研究課題。本文描述我們在發掘多種語言文件上的知識所發展的一個方法。我們從光華雜誌中收集中文與英文的新聞資料,測試語料庫中各有976份中英雙語文件。 在本研究中,我們採用一類神經網路中文件分群的方法,即增長層級式自我組織映射圖,來協助我們發現多國語言文件之關聯。我們使用中英雙語平行語料庫來建構實驗以發掘文件間之關連性。本研究實驗顯示我們的方法可以獲取不同語言文件間之關係。
With the increasing amount of multilingual texts in the Internet, multilingual information retrieval has become an important research issue. This paper describes our work on developing a method for discovery of knowledge from multilingual documents. We collected English and Chinese news articles from the Taiwan-panorama magazine. Our test corpus includes 976 pairs of Chinese-English parallel documents. In this study, we adopt a text clustering approach, which apply a neural network approach, namely the growing hierarchical self-organizing maps (GHSOM), to help us discovering relationships among multilingual documents. We have conducted experiments to uncover relationships of documents based on Chinese-English bilingual parallel corpora. The experimental results show that our multilingual text mining approach may capture conceptual relationships among documents written in different languages.
為了持續優化網站功能與使用者體驗,本網站將Cookies分析技術用於網站營運、分析和個人化服務之目的。
若您繼續瀏覽本網站,即表示您同意本網站使用Cookies。