在充滿雜訊的文件影像中區分圖案與文字區域方法研討

由於現今與往後為數位化的時代，為了方便保存、管理以及應用，舉凡聲音、影像等各式各樣的數據、資料都漸漸地轉成經由0與1的數位呈現方式來儲存，過往已存在的數據、資料在轉換至數位檔案的過程中難免遭遇到一些問題與困難。例如：舊有的文件、報章雜誌、書籍等，因為儲存方式不夠完善使其受潮，或是人為因素造成其受汙染、受損，亦或是資料轉換成數位檔案時使用的機器設備不夠精良，導致轉換後的資料產生雜訊。無論是哪種方式或何種原因致使數位化的資料上含有雜訊，該雜訊皆為人們所不樂見的產物，因此在數位化的同時，通常會加入一些後製處理(ex.消除雜訊)，使得數位化的檔案能更貼近於其原有的樣貌或是更為方便於讓人們後續使用。文件影像中無論是何種因素造成其帶有雜訊參雜其中，皆需要進行消除雜訊的動作，使數位文件影像在後續的保存與使用中更為便利。然而消除雜訊的這項動作，若是使用人工的方式進行，雖然能夠有效地將雜訊區分出並進一步地消除，但這樣將會相當費時，並且需要眾多的人力方能將大量的數位文件影像作完消除雜訊之工作，所付出的成本會非常的龐大；而在自動化消除雜訊的演算法中，不需要投入眾多的人力，花費的時間也減少許多，但是要分辨出將被消除的部分，是屬於無用的雜訊，或是圖案中的內容、文件中的文字等有用的資訊，又是相當困難的，因此往往會傷害到文件影像中有用的部分，進而使得文件資訊失去了原有的樣貌。自動化消除雜訊的演算法表現在純文字區域的部分是相對優異地。有鑑於此，本篇論文便想探討出一套能夠在充滿雜訊的文件影像中將文字區域與圖案區域識別出來的方法，這套方法將來便可作為消除雜訊的前置作業，只針對識別出的文字區域部分進行消除雜訊，識別出的圖案部分區域則不做消除雜訊的動作，如此一來可將消除雜訊的效益提升，數位化的文件影像其品質也就能一併提升，對於數位文件影像的後續使用將是一大利多。

關鍵字

文字定位；影像處理

並列摘要

In this paper, we introduce a method to distinguish areas of figures from texts in heavily blurred document images. To achieve this object, we analysis some change of values with different gray-scale intensity. We plot the values into curves then found that text part and the figure part have different characteristics. By these characteristics, we can figure out the area is belong to figure part or text part quickly and automatically. After we separate texts and figures in the heavily blurred environment, more jobs can be done in post. Such as noise reduction, optical character recognition, etc.

並列關鍵字

OCR Segmentation ； Image Processing

參考文獻

[4]Nobuyuki Otsu, ¡§A threshold selection method from gray-level histograms¡¨. IEEE Trans. Sys., Man., Cyber. 9 (1): 62¡V66, 1979.

[5]Canny, J.¡§A computational Approach to Edge Detection¡¨, Pattern Analysis and Machine Intelligence, Vol.8, pp.679-698, 1986.

[10]Haralick, R. M., Shanmugam, K., & Dinstein, I. ¡§Textural Features for Image Classification¡¨, Systems, Man, and Cybernetics, Vol. 3, pp. 610-662, 1973.

[11]Lee, C., M. ¡§Automatic Extraction of Characters in Complex Scene Images¡¨, Pattern Recognition, Vol. 19, pp. 67-82, 1995.

[1]§õªN¡A¡§¼Æ¦ì¤Æ¤å¥óÂø°T²M°£¤èªk±´°Q»P¹ê§@¡¨¡A²H¦¿¤j¾Ç¸ê°T¤uµ{¾Ç¨t¡A2014¡C

Google Scholar

國際替代計量

在充滿雜訊的文件影像中區分圖案與文字區域方法研討

全文下載

主題瀏覽