Learning to Find Translations and Transliterations on the Web based on Conditional Random Fields

指導教授 : 陳煥宗


在近年自然語言處理與資訊檢索的研究中,跨語言系統大多建立於大規模平行語料庫的基礎上,例如統計式機器翻譯、跨語言檢索、跨語言知識連結、多語系知識架構等。然而,就算在取得了極大規模的平行語料庫作為訓練,也時常無法涵蓋足夠的專有名詞與術語。在這個研究中,我們提出一個新的方法。基於機器學習,我們的方法可以用於自動擷取網路上專有名詞與術語的翻譯與音譯。在我們的研究路線裡,我們從中文與英文維基百科的跨語言文章對應中取得了一個小型的專有名詞與術語的中英對照表,並透過網路搜尋引擎取的中英交錯的網頁摘要。我們接著利用此對照表,自動的標記這些網頁摘要。利用各種可自由取得的外部知識,包含中研院資訊所雙語 WordNet 知識架構、國立編譯館中英術語翻譯表、由維基百科擷取的人名與地名音譯表,我們自動的產生四種不同的特徵值,包含翻譯特徵值、音譯特徵值、文字表面樣式特徵值、距離特徵值,並使用 CRF++ 套件自動的訓練一個 conditional random field (CRF) 模型。在執行階段,我們經由使用者提供的英文術語或專有名詞,利用網路搜尋引擎取得中英交錯的網頁摘要,並使用訓練好的 CRF 模型來擷取可能的候選翻譯或音譯,最後輸出最高頻率候選翻譯或音譯。經由初步的實驗,結果顯示,在相似的驗證過程中,我們所提出的方法有效的結合了前述幾種不同的特徵值,其準確度與涵蓋度效能皆超越前人研究約百分之十。


In recent years, state-of-the-arts cross-linguistic systems have been based on parallel cor- pora. However, it is difficult at times to find translations of a certain technical term or named entity even with a very large parallel corpus. In this paper, we present a new method for learning to find translations on the Web for a given term. In our approach, we use a small set of terms and translations to obtain mixed-code snippets returned by a search engine. We then automatically annotate the data with translation tags, automati- cally generate features to augment the tagged data, and automatically train a conditional random fields model for identifying translations. At runtime, we obtain mixed-code web- pages containing the given term, and run the model to extract translations as output. Pre- liminary experiments and evaluation results show our method cleanly combines various features, resulting in a system which outperforms previous work.




