2009年4月27日 星期一

文件辨識 OCR online

OCR 是 Optical Character Recognition 的縮寫,也就是我們常說的文字辨識系統。
例如掃瞄進電腦的文件,只能是圖片,而無法以文書處理方式編輯其中的內容。
如果想將圖片中內容辨識成文字,我們就需要透過辨識軟體了。

[[MORE]]

辨識軟體還是要推一下國產貨:丹青文件辨識系統 或是 蒙恬認識王。
畢竟只有他們對中文的認識程度比較好。

但如果你只是要掃瞄英文文件的話,那選擇就更多了,甚至還有免費的線上版可以利用。

我剛剛測試過以下三者:


  • http://www.p2escan.com/
    爆爆爆慢,辨識完的東西會跟其他人丟上去辨識的全部混在一起,如果要辨識的內容有點敏感性請三思。不過這類線上服務當然不管怎樣您都得考慮一下內容會被第三者知悉的問題。

  • OCR Terminal
    這個網站提供每天 30 頁的免費額度,應急已經夠用。另外辨識出來的東西可以存成 .txt .doc .rtf .pdf 等四種格式,而且也會按照原來的編排。至於辨識率的話,雖沒辦法跟套裝軟體相比,但還算可以接受。這類線上 OCR 速度簡直不敢恭維,而 OCR Terminal 勉強及格。

  • Online OCR
    支援輸出格式更多: pdf、xls、html、doc、rtf、txt。完全免費,辨識率也 OK,速度也 OK,辨識前還可以選擇要辨識哪幾頁(例如有的PDF檔很多頁),也可以選擇辨識用語言(別傻了,當然不會有中文)。不過這個網站常會出現連線中斷(大概負荷太大),而且太大的檔案也傳不上去(應該是受限於 http upload 的限制)。



以下這個網站也有一些 online OCR 的列表,有需要的朋友可以試試看別的選擇。

Link: Web-based/online OCR services and demos

2009年4月24日 星期五

Ubuntu 安裝 VMware 的問題

我在 Ubuntu 9.04 (AMD64) 上安裝 VMware Workstation 6.5.1 (64bit bundle版),雖然順利安裝,但是無法開啟。

直接執行會看到以下訊息:

Logging to /tmp/vmware-w3rt/setup-9600.log
modinfo: could not find module vmmon
modinfo: could not find module vmnet
modinfo: could not find module vmblock
modinfo: could not find module vmci

.... (略)

解決方法如下 (via):

First you got to remove the broken module:
sudo mv /usr/lib/vmware/modules/binary /usr/lib/vmware/modules/binary.old

then simply rebuild the module.
sudo vmware-modconfig --console --install-all

2009年4月23日 星期四

Ubuntu 9.04 Release 推出

借用 Ubuntu 正體中文站上方的宣傳圖片:

  • 新檔案系統 Ext4 支援 (速度更快了)

  • 新通知系統 (很有質感!)

  • 20 秒內開機 (好啦,這還是得看機器)

  • OpenOffice.org 3.0



連結:
Ubuntu 原文官網
Ubuntu 下載點
ZDNet: Ubuntu Desktop Edition 9.04明天開放下載
完整安裝過程,請參考:The Perfect Desktop - Ubuntu 9.04 (Jaunty Jackalope)

2009年4月15日 星期三

安裝 Windows 98 SE

安裝 Windows 98 SE 的幾個小心得:


  • 我一開始用 VirtualBox 2.2.0 + FreeDOS 1.0 + Windows 98 SE 宣告失敗,一方面 Windows 98 其實沒辦法與 FreeDOS 有很好的相容,剛開始安裝就會發生錯誤了。雖然 FreeDOS 有提供一個方法,但可能我還加上VirtualBox,所以行不通。

  • 如果不用 FreeDOS,那就要先準備 MSDOS 開機磁片,大家都丟了吧?誰還會買軟碟機?可以在這裡下載

  • 後來把 VirtualBox + MSDOS + Windows 98 SE 組合裝起來之後,發現 VirtualBox 對 Windows 98 的支援很差,先別說網路卡那些,連顯示卡都找不到驅動程式,所以只能跑 16 色低解析度模式,幸好 VirtualBox FAQ 有提供解決方案,但做到這邊我覺得實在太麻煩了,而且一直出現藍色畫面給我看,決定換個方法。

  • 接下來我改用 VMware Workstation 6.5 + MSDOS + Windows 98 SE,啊,一切順利。

  • 關於顯示卡的問題,也是直接安裝 VMware tools 就搞定了。

  • 穩定度 VMware Workstation 比 VirtualBox 高,但是 VirtualBox 效能比較好。

  • 安裝的過程中我都沒有用到實體的光碟機或軟碟機,只用映像檔 (image files) 處理,反正可以搞定就好。