透過您的圖書館登入
IP:3.15.6.77
  • 學位論文

社群問答資料庫答案擷取之研究

Answer Retrieval on Community-Based Question-Answering

指導教授 : 陳信希

摘要


本論文研究社群問答資料庫中的答案擷取機制,由於社群問答網站的使用者必須等待其他網友來回答,為了解決這種情況,由既有的資料庫中擷取答案來提供給使用者,不但可以省去等待時間,亦可以減少重複發問的情形。 在本論文中,我們提出兩種不同的答案擷取,主題式答案擷取以及詞彙關聯式答案擷取。主題式答案擷取,將答案先分為幾個主題,依據使用者問題來挑選合適的主題,最後在該主題中進行問題與答案的相似度計算,並傳回答案給使用者。在相似度計算的部分又有三種不同的計算方式,分別是傳統資訊檢索、句子層次計算、以及翻譯模型計算。傳統資訊檢索以文章為單位計算問句與答案的相似度成績;句子層次便是將計算的對象縮小為句子,再由句子之間互相影響相似度成績,加總為答案的相似度;翻譯模型則是將問題翻譯成為虛擬的答案,再進而計算虛擬答案與答案文章的相似度。 詞彙關聯式答案擷取,建立問題詞彙以及答案詞彙兩兩之間的關聯,評估其關聯的強弱而得到詞彙關聯度。詞彙關聯度有三個部分組成:問題詞彙權重、關聯重要性、以及答案詞彙鑑別度。藉由詞彙關聯度的大小,計算使用者問題以及答案文章之間的相似度成績,傳回答案給使用者。 實驗結果以詞彙關聯度的正確率最高,達到55.72%。主題式答案擷取的實驗結果,經改善後也能夠達到50.52%的正確率。

參考文獻


[6] Cristianini, N., and John Shawe-Taylor (2000) An Introduction to Support Vector Machines, Cambridge University Press, Cambridge, UK.
[7] Katz, B., Lin, J., and Felshin, S. (2001) “Gathering Knowledge for a Question Answering System from Heterogeneous Information Sources,“ Proceedings of ACL Workshop on Human Language Technology and Knowledge Management, pp. 71-78
[8] Zheng, Z. (2002) “AnswerBus Question Answering System,” Proceedings of Human Language Technology.
[9] Lin, Chuan-Jie (2004) A study on Chinese Open-Domain Question Answering Systems, Ph.D. Thesis, National Taiwan University.
[15] Manning, C. D., and Schütze, H. (1999) Foundations of Statistical Natural Language Processing. Cambridge, Massachusetts: The MIT Press.

延伸閱讀