中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究

類專有名詞辨識是希望將文章中重要的類專有名詞(如：人名、地名、組織名等)標註出來，對於文章作一個初步的文件了解動作，如此我們即可得知文章中關連到哪些人、事件發生在什麼地方、與哪些組織有關等資訊。當我們將釵h詞典外詞彙分辨成類專有名詞的語意類別後，也對釵h的後續應用帶來幫助，如：可幫助問答系統做問句語意剖析及以類專有名詞於句子中的出現種類與數量做為自動摘要系統評估句子重要性的一個指標值。本論文除了探討純文字文件下的類專有名詞辨識，另一個重要的研究主題為在語音文件中做類專有名詞辨識，由於語音文件中包含了辨識的不確定性，若能加入判斷語音辨識正確與否的考量，在語音辨識錯誤處做類專有名詞的修正與回收，對於語音文件的後續加值應用的幫助是更大的。因此本論文主要以三個部分做探討，分別是``文字文件類專有名詞辨識'、``語音文件類專有名詞辨識'以及``類專有名詞辨識衍生之相關應用'。 ``文字文件類專有名詞辨識'，我們實作了統計導向的``以類別語言模型為基礎的類專有名詞辨識'及規則導向的``結合派樹式類專有名詞抽取與經驗法則的類專有名詞辨識'。在統計導向的方法中，我們提出地名與組織名皆可以巢狀的類別語言模型來估測，如此才能辨識出各種複雜結構組成的類專有名詞。而在規則導向的方法中，我們提出一個前端對整篇文章做派樹式類專有名詞抽取的方法；利用整篇文章所帶的字串前後文統計值與字面值，幫助抽取出邊界正確的類專有名詞，並可回收一般方法較難偵測出的縮寫類專有名詞，後端再結合詞性的標註與各種經驗法則，在新聞領域上可以得到不錯的類專有名詞辨識率。我們認為這兩種方法在不同的應用上，如：不同文體或加入更多種類的類專有名詞類別上，皆各有其優勢及實用上的價值。 ``語音文件類專有名詞辨識'，我們探討了直接使用``文字文件類專有名詞辨識器'於語音文件上會遇到的主要問題，並提出結合關鍵詞可信度分數門檻值限制來幫助增加類專有名詞辨識的精確率，以及從額外的資源中粹取出和欲處理的語音文件相關的``時間與主題同質的類專有名詞庫'，將``時間與主題同質的類專有名詞'與語音文件的內容在不同特徵單位下(字元、音節)可匹配時，對於類專有名詞辨識回收率的影響。此匹配法在音節完全或近似匹配下，對於原本字元辨識錯誤的類專有名詞，可能做到既回收了原本辨識不出來的類專有名詞，亦得到錯誤字元修正的效果。實驗結果發現結合``關鍵詞可信度分數門檻值'的使用來幫助精確率的提升，並採用``時間與主題同質的類專有名詞'在音節完全/近似匹配設定來幫助回收率時，我們可以得到進步釵h的F-測量結果。 ``類專有名詞辨識衍生之相關應用'，我們討論了兩種本論文實作出的系統架構，分別是``自動建立類專有名詞索引之資訊檢索系統'及``網際網路語音問答系統'，也詳細地說明系統中各個元件的概念及後端資料處理的程序。我們認為在未來愈來愈需要使用自然語言做互動的應用中，能判別詞典外詞彙的語意類別是處理自然語言語意的一個重要步驟，也因此智慧型應用系統中若能結合類專有名詞辨識的元件，則可處理的領域廣度及文件了解的深度上都能有所提升。

關鍵字

類專有名詞辨識；語音文件處理；純文字文件處理

並列摘要

無資料

並列關鍵字

named entity recognition ； text document processing ； spoken document processing

參考文獻

Science and Information Engineering, 2003.

[2] A.Mikheev, M. Moens, and C. Grover, “Named entity recognition without

the Association for Computational Linguistics, 1999.

Processing, 1997.

what’s in a name,” in Machine Learning, in press, 1999.

被引用紀錄

郭克儉（2007）。中文語音文件自動標題設定之進一步研究〔碩士論文，國立臺灣大學〕。華藝線上圖書館。https://doi.org/10.6342/NTU.2007.10403

國際替代計量

中文文字/語音文件中類專有名詞擷取及其可能應用之初步研究

全文下載

主題瀏覽