技術服務小百科: 光學字元識別 (OCR, Optical Character Recognition)

2011年4月27日星期三

光學字元識別 (OCR, Optical Character Recognition)

以電子裝置檢查紙面上印刷字元並以偵測暗與亮的方式來決定字元外形的過程。一旦掃描器或閱讀機決定外形後，字元辨識法（樣式與內存的字集進行匹配）就會被用來將這些外型轉譯成電腦文字。

光學字元辨識屬於圖樣辨別的一門學問。早在1950年代，就開始有OCR的研究，OCR初期多以辨識方法及辨識數字為主。IBM公司最早開發了OCR產品，1965年在紐約世界博覽會上展出IBM公司的OCR產品—IBM 1287，當時的這款產品只能識別印刷體的數字、英文字母及部份符號，並且必須是指定的字體。國內到了1980年左右，才真正投入OCR的研究，當時主要的目標為辨識印刷文件，直到1990年代才開始手寫文稿的辨識研究。

一般來說，一套字元辨認系統通常包含三大部分，影像掃描器(Image scanner)、光學字元辨認軟體（或硬體）及輸出介面(Output interface)。其操作原理是：先透過影像掃描器將待輸入之文件掃描成一個影像，這個影像再送給字元辨認軟體（或硬體）進行字元辨認，由於有可供參考的字體，所以，整分影像文件會被轉換成一個個字元所組成的文件檔案。就像這些字元是由鍵盤輸入的一樣。最後，這個文件檔案再經由輸出介面，送到其他應用程式（如，文書處理軟體）進行資料輸入後之處理。

OCR裝置基本操作步驟如下：

1.將待讀文件置於OCR之輸入器中。

2.將文件傳送入掃描裝置中。

3.用光束掃描文件，產生的反射光線由感光裝置所接收。

4.感光裝置將光學信號送至轉換器轉換成電腦內碼。

5.電腦程式辨認轉換後的電腦內碼，並將無法辨認的內碼顯示在螢幕，由使用者重新輸入。

隨著光學字元辨識技術(OCR, Optical Character Recognition)的發展，以光學掃描器將整頁文本圖像輸入至電腦，再利用辨識核心技術，將圖形文字轉換成電腦上可以修改編輯的系統字元，這跟人工打字的效果是一樣的，但速度卻比人工打字快了幾十倍。它影響傳統打字生態，使人們從繁瑣的鍵盤打字工作中解脫，讓部分打字工作變成了文件掃描與文字校對，解決了低速資訊輸入與高速資訊處理之間的不平衡，進而提高了工作效率。

一般來說，字型辨識過程會歷經掃描、轉檔、校對、歸檔等四個過程，其中掃描是後續工作能否順利的關鍵，諸如掃描物件擺放位置傾斜與否？掃描解析度和雜點多不多？文字顏色濃淡，以及文件圖文多寡和字體是否複雜等因素，都會影響到OCR軟體對圖字的辨識率，若事前作業處理得好，接續工作便容易上手。辨識完成後，一篇文章能否完整呈現，有賴於線上校對工具是否簡單、清楚，能夠讓使用者毫不費力檢查原稿內文和轉換後的文件檔案內容是否一致，修改介面最好有待選字或鄰近字供點選，以避免人力與時間的浪費。

而通常我們在購買掃描器時，附帶的掃描軟體中普遍都帶有OCR識別功能，但其識別率很少令人滿意。現在市場上有多廠牌OCR產品，如丹青中文OCR、蒙恬認識王、清華紫光OCR等，每種產品都標明自己能達到最高識別率。可是用戶往往在使用之後發現其達不到所標稱的效果。實際上，即使使用識別率很高的OCR產品，識別效果可能仍然會不理想，原因在於使用掃描器輸入文本圖像的時候，沒有把掃描器的相關參數設置調整到最佳狀態，而這些參數直接影響輸入圖像的品質，導致OCR識別率下降。掃描解析度DPI (Dot Per Inch)便是影響OCR辨識率的關鍵參數之一，使用者可根據實際操作狀況調整至最佳掃描解析度，而非最高掃描解析度。總而言之，OCR識別率高低不僅取決於其軟體本身的品質，供OCR識別用的文本圖像品質也有極大關聯。(蔡玉紋)

參考資料：

互動科(無年代)。OCR。互動百科，檢索日期：2009/4/6，網址：http://www.hudong.com/wiki/ocr#3

國立編譯館(無年代)。光學字元辨識。教育大辭書，檢索日期：2009/4/6，網址：http://edic.nict.gov.tw/cgi-bin/tudic/gsweb.cgi?o=ddictionary

程婉如(2008)。拓展台灣數位典藏計畫：淺談光學字型辨識技術(OCR,Optical Character Recognition)，檢索日期：2009/4/6，網址：http://content.ndap.org.tw/index/?p=529