本論文研究社群問答資料庫中的答案擷取機制,由於社群問答網站的使用者必須等待其他網友來回答,為了解決這種情況,由既有的資料庫中擷取答案來提供給使用者,不但可以省去等待時間,亦可以減少重複發問的情形。 在本論文中,我們提出兩種不同的答案擷取,主題式答案擷取以及詞彙關聯式答案擷取。主題式答案擷取,將答案先分為幾個主題,依據使用者問題來挑選合適的主題,最後在該主題中進行問題與答案的相似度計算,並傳回答案給使用者。在相似度計算的部分又有三種不同的計算方式,分別是傳統資訊檢索、句子層次計算、以及翻譯模型計算。傳統資訊檢索以文章為單位計算問句與答案的相似度成績;句子層次便是將計算的對象縮小為句子,再由句子之間互相影響相似度成績,加總為答案的相似度;翻譯模型則是將問題翻譯成為虛擬的答案,再進而計算虛擬答案與答案文章的相似度。 詞彙關聯式答案擷取,建立問題詞彙以及答案詞彙兩兩之間的關聯,評估其關聯的強弱而得到詞彙關聯度。詞彙關聯度有三個部分組成:問題詞彙權重、關聯重要性、以及答案詞彙鑑別度。藉由詞彙關聯度的大小,計算使用者問題以及答案文章之間的相似度成績,傳回答案給使用者。 實驗結果以詞彙關聯度的正確率最高,達到55.72%。主題式答案擷取的實驗結果,經改善後也能夠達到50.52%的正確率。