2009年4月27日 星期一

文件辨識 OCR online

OCR 是 Optical Character Recognition 的縮寫,也就是我們常說的文字辨識系統。
例如掃瞄進電腦的文件,只能是圖片,而無法以文書處理方式編輯其中的內容。
如果想將圖片中內容辨識成文字,我們就需要透過辨識軟體了。

[[MORE]]

辨識軟體還是要推一下國產貨:丹青文件辨識系統 或是 蒙恬認識王。
畢竟只有他們對中文的認識程度比較好。

但如果你只是要掃瞄英文文件的話,那選擇就更多了,甚至還有免費的線上版可以利用。

我剛剛測試過以下三者:


  • http://www.p2escan.com/
    爆爆爆慢,辨識完的東西會跟其他人丟上去辨識的全部混在一起,如果要辨識的內容有點敏感性請三思。不過這類線上服務當然不管怎樣您都得考慮一下內容會被第三者知悉的問題。

  • OCR Terminal
    這個網站提供每天 30 頁的免費額度,應急已經夠用。另外辨識出來的東西可以存成 .txt .doc .rtf .pdf 等四種格式,而且也會按照原來的編排。至於辨識率的話,雖沒辦法跟套裝軟體相比,但還算可以接受。這類線上 OCR 速度簡直不敢恭維,而 OCR Terminal 勉強及格。

  • Online OCR
    支援輸出格式更多: pdf、xls、html、doc、rtf、txt。完全免費,辨識率也 OK,速度也 OK,辨識前還可以選擇要辨識哪幾頁(例如有的PDF檔很多頁),也可以選擇辨識用語言(別傻了,當然不會有中文)。不過這個網站常會出現連線中斷(大概負荷太大),而且太大的檔案也傳不上去(應該是受限於 http upload 的限制)。



以下這個網站也有一些 online OCR 的列表,有需要的朋友可以試試看別的選擇。

Link: Web-based/online OCR services and demos

沒有留言:

張貼留言