命名實體辨識 (Named Entity Recognition , 簡稱 NER) 是資訊擷取 (Information Extraction) 這領域中一個很重要的課題,也被廣泛的運用於分析許多英文及外文的資料,無論是結構化或非結構化的資料,目前已經很多效能不錯的工具,隨著華人世界的興起,很多學者也開始將NER的技術運用於中文資料的分析上, 故提出一個方法建構在現有的模型上並加入一些新的想法及關鍵特徵,希望能在辨識的準確率上表現的更好。 本篇論文提出,以條件隨機域 (Conditional Random Fields , 簡稱 CRFs) 為基礎,藉由加入一些對於辨識中文人名命名實體 (Chinese Named Entity Recognition , CNER) 有幫助的特徵,來實作中文人名辨識系統 CRF_CNR。有鑑於中文並不如英文有明顯的空格可做斷詞,中文每個字有時所能代表的意義有限,故針對人名辨識的部份,本研究加入了斷詞特徵、百家姓特徵、稱謂特徵以及單字在中文人名中出現的機率分布;斷詞特徵使用中研院提供之 “中文句結構樹資料庫” 內的斷詞資訊;百家姓特徵使用來自內政部之 “戶政資料倉儲系統” 所統計台閩地區姓氏一覽;稱謂特徵則包含了親屬稱謂 (如:爺爺、叔叔…等) 以及職業稱謂 (如:總統、經理…等);人名機率分布特徵使用台灣大學聯考近幾年榜單做分析處理得知。 另外,中央研究院所提供之中文斷詞系統 (CKIP) 具有一定的斷詞準確率,故本研究使用其模組來做斷詞,將結果加上簡單處理,把不必要的標記刪除,留下名詞標記部分,再以人為訂定規則做篩選後,產生的結果作為本研究的 Base Line;資料集使用中央研究院提供之 ”中文句結構樹資料庫” 及 ”現代漢語平衡語料庫”;最後的實驗使用CRFs作為本研究的模型,研究結果顯示使用CRFs並加入以上的特徵能超越 Base line 所作出的結果,確實能有效提昇中文人名命名實體辨識的準確率。
Named Entity Recognition is an important issue in the field of information extraction. It has also been widely used to analyze nature language in English and other languages. This paper proposes an approach to implement Chinese names recognition system, CRF_CNR, based on Conditional Random Fields with character-level features. Our recognition system considers the following features : word segmentation feature, surnames feature, titles feature, and the probability distribution of the Chinese word appearing in Chinese names. Word segmentation feature uses the Chinese word segmentation information from Sinica TreeBank database provides by the Academia Sinica. Surnames feature uses the Taiwan area surname list from the Ministry of the Interior. Titles feature contains kinship (eg, grandfather, uncles ... etc.) and professional titles (eg, the president, manager, ... etc.). The probability distribution of the Chinese word appearing in Chinese names uses the names list from National Taiwan University’s entrance exams in recent years to compute the odds of first name characters. Using the testbed constructed from the Sinica TreeBank and Balance Corpus, the ten-fold cross validation shows that the F1-measure is 0.871, higher than the baseline constructed using Chinese knowledge information processing group (CKIP).