透過您的圖書館登入
IP:3.22.181.209
  • 學位論文

用機器學習整合索引資訊之中文語音文件檢索

Integrating Indexing Information by Machine Learning for Chinese Spoken Document Retrieval

指導教授 : 李琳山

摘要


語音文件檢索在資訊爆炸的多媒體時代日益重要。大部分的語音文件檢索的 技術包含兩大步驟, 一是自動語音辨識技術, 二是使用辨識後產生的索引資訊 進行檢索。第一個步驟面對的是可能的高辨識錯誤率, 會影響產生的語音文件 索引所攜帶資訊的正確性; 第二個步驟就是如何充分使用這些索引所帶的資訊 並將之發揮到極致。本論文所研究的主題方向屬於上述第二部份, 考慮如何將 中文語音中不同語言單位(例如:詞(Word)、字(Character)、音節(Syllable)、聲韻 母(Initial-Final)等...) 所產生的索引資訊, 透過排序學習(Learning to Rank)的方法 整合起來。 本論文共研究了兩種排序學習(Learning to Rank)的方法︰調適排序(AdaRank)及 針對平均準確率的支撐向量機(Support Vector Machine for Optimizing Mean Average Precision, SVM-map)。 實驗結果顯示, 使用針對平均準確率的支撐向量機的結果是比較好的, 比起調適排序, 最佳的平均準確率均值進步是4.70%; 比起已知個別檢索效能 最佳(Oracle)的索引, 綜合查詢指令進步了8.67%, 其中辭典內查詢詞彙的部份 進步了6.30%, 而辭典外查詢詞彙效果最為明顯, 有約11.63%的直接進步。這 些實驗結果也驗證, 使用不同語言單位所產生的語音文件索引, 透過排序學 習找到適當的對應權重, 予以加成, 可以使得語音文件檢索的效能以及強健 性(Robustness)獲得更進一步的提昇。

並列摘要


參考文獻


Hoffman, Bernhard Sch‥olkopf, John C. Platt, and Thomas Hoffman, Eds. 2006, pp.
[5] Berlin. Chen, Jen-Wei. Kuo, Yao-Min. Huang, and Hsin min. Wang, “Statistical
[2] Sparck, G. J. F. Jones, J. T. Foote, and S. J. Young, “Experiments in spoken document
[1] Vannevar Bush, “As we may think,” in The Atlantic Monthly, 1945.
July 1996.

延伸閱讀