以信心量度改善中文斷詞之初探

本論文的主要目的在模仿語音辨識的信心量度，探討信心量度在中文斷詞的效用。首先，本文利用了詞位標籤將每個字分類成B、I、E、S四種(詞頭、詞中、詞尾以及單字詞)。有了詞位標籤之後，我們就可以自然的用隱藏式馬可夫模型來模型斷詞問題。所以本文是採用新近發展出的詞位標籤之特製化隱藏式馬可夫模型來作為斷詞方法，其斷詞正確率比傳統的隱藏式馬可夫模型(Hidden Markov Model, HMM)還要高。為了減少計算量和去除掉一些機率較低的狀態序列，使用了Beam Search的方法找出前n名的狀態序列，之後再利用這n條狀態序列來算出句子和字的事後機率，本文採用此事後機率來當作信心量度的評估。實驗結果發現，全句序列的信心量度和正確率之相關係數與句子的字數有其一定的關聯，但信心量度對於提昇Top-1的正確率並沒有幫助。

關鍵字

信心量度；中文斷詞

並列摘要

HASH(0x1cd58f60)

並列關鍵字

HASH(0x1cd58d80) ； HASH(0x1cd58e20)

參考文獻

[2] Rabiner , L. R.(1989), “A Tutorial on Hidden Markov Models and Selected Ap-plications in Speech Recongnition, ”Proceedings of the IEEE, Vol.77, No.2, pp.257-286, 1989.

[5] Wessel, F. and H. Ney (2005), “Unsupervised Training of Acoustic Models for Large Vocabulary Continuous Speech Recognition,” IEEE Trans. Speech and Audio Processing, Vol.13, No. 1, pp.23-31, 2005.

[6] 林千翔，張嘉惠(2006)，”基於特製隱藏式馬可夫模型之中文斷詞研究”國立中央大學資訊工程學系,2006.

[7] 陳璨輝，王新民，陳柏琳(2006)，”信心度評估於中文大詞彙連續語音辨識之研究”國立台灣師範大學資訊工程學系,2006.

[1] Chen, B., J.-W. Kuo and W.-H. Tsai (2005), “Lightly Supervised and Da-ta-driven Approaches to Mandarin Broadcast News Transcription,” International Journal of Computational Linguistics & Chinese Language Processing, Vol. 10, No. 1,pp1-18,2005.

Google Scholar

被引用紀錄

羅郁仁（2011）。中文專利指標及文字探勘之研究〔碩士論文，國立臺北科技大學〕。華藝線上圖書館。https://doi.org/10.6841/NTUT.2011.00684

國際替代計量

以信心量度改善中文斷詞之初探

全文下載

主題瀏覽