透過您的圖書館登入
IP:52.14.240.178
  • 學位論文

基於文本的漢字影像辨識研究

Language Context-based Enhancement for Chinese Optical Character Recognition

指導教授 : 黃乾綱

摘要


隨著時代演進,人們對於電子產品的使用已逐漸普及。傳達文字訊息的方式,由過去的書寫文字,進而進展成現在的數位文字。促使文本數位化的需求提升。為了使影像轉換為數位文字,市面上已有開發光學文字辨識系統,能將影像做自動轉換數位文字,但是這些系統主要是針對現代印刷字體。至於非印刷體文字,如手寫字、雕版印刷等,其辨識率並不佳。因此,本研究,為了改善現有光學文字辨識軟體正確率,增加使用者數位化文本的便利性以減少使用之人力成本。 本研究流程主要分為二步驟,第一步驟:將文本作結構的分析,切割出字符影像,避免切割不完全使得辨識時造成辨識錯誤。第二步驟分為兩個部分,第一部分是將切割出的字符,以方向梯度直方圖(HOG)來表示字符特徵。將字符依特徵向量作粗略分群,再以文本之語言模型,觀察其分群情況,增加其分群效果。最後根據分群的結果,作錯誤辨識的偵測,以及改正其錯誤文字;第二部分是將文本利用現有之文字辨識軟體,將影像轉為數位文字,透過外部文本的語言模型來偵測與改正錯誤文字。最後比較這兩部分之錯誤字偵測及修正情形。本研究方法與使用Plustek DI express 6.0辨識的結果作比較,在使用內部文本的部分,增加5%的辨識正確率,從65%增加至70%。而使用外部文本的部分,則是增加了9.8%的辨識正確率。

並列摘要


參考文獻


5. Shiah, C.-Y. and Y.-S. Yen. Fast historic document retrieval by extracting document image summary. in Multimedia Technology (ICMT), 2011 International Conference on. 2011. IEEE.
7. Ji, J., L. Peng, and B. Li. Graph Model Optimization Based Historical Chinese Character Segmentation Method. in Document Analysis Systems (DAS), 2014 11th IAPR International Workshop on. 2014. IEEE.
8. Xu, L., et al., An over-segmentation method for single-touching Chinese handwriting with learning-based filtering. International Journal on Document Analysis and Recognition (IJDAR), 2014. 17(1): p. 91-104.
9. Zhao, S., et al., Two-stage segmentation of unconstrained handwritten Chinese characters. Pattern Recognition, 2003. 36(1): p. 145-156.
10. Yang, L. and L. Peng. Local projection-based character segmentation method for historical Chinese documents. in IS&T/SPIE Electronic Imaging. 2013. International Society for Optics and Photonics.

延伸閱讀