民芸的プログラミング 〜ソフトウェア開発日記〜

アクセスカウンタ

zoom RSS ScanSnap でスキャンした画像を OCR してみる

<<   作成日時 : 2010/01/28 00:07   >>

ブログ気持玉 0 / トラックバック 1 / コメント 0

まだまだ OCR を諦めてはいなかった。
前回は、USB カメラでキャプチャした画像を OCR しようとしてうまくいかなかったので、今回はスキャナで再チャレンジ。
使ったのは、PFU 製の ScanSnap。
なぜ ScanSnap かというと、それは、それがそこにあったから。

FUJITSU ScanSnap S1500 FI-S1500
富士通
2009-02-07

ユーザレビュー:
速い!十分良い!機能 ...
5Sがグンと進む仕事 ...
素早いです! 会社の ...

Amazonアソシエイト by ウェブリブログ商品ポータルで情報を見る



読ませるのは前回と同じ、受験票。
何の受験票なのかは、ここで書くとあまりに話がリアルになりすぎるので、省略させてもらう。
受験票を読み込んで、受験番号を OCR し、リスト化したいのだ。

で、実際のところ、ScanSnap での読み取りは快調そのもの。さすが定番商品。
20枚ほどあった受験票があっという間に JPEG データになってしまった。
これを ImageMagick を使って、必要な範囲だけを切り取り、さらに TIFF 化(および圧縮解除)。
そして、前回と同じく tesseract-ocr でテキスト化する。

その結果、なぜか空のテキストファイルが生成された。
どうやら、ImageMagick の生成する TIFF ファイルと、tesseract-ocr の相性が良くないらしい。
あらためて、ファイル形式を BMP にして、再度 tesseract-ocr にかける。

すると、ついに、テキストファイルが出てきた...のだが、読み取り精度が極端に悪い。
アルファベットとハイフン、そして数字だけのデータなのだが、まったく化け化け。10%も読み取れていない感じ。
というか、何を読んだの? といった感じ。

試行錯誤して、ImageMagick の段階でデータのコントラストを引き上げたところ、どうにか80%程度は読み取れるようになった。元のデータのコントラストが不足していたのだ。
なら、ScanSnap で読み取る段階からコントラストを上げておけばもっとうまくいくのでは?
と思ったのだが、残念なことに、ScanSnap にはコントラスト調整機能が無いのであった。これってちょっと意外。

テーマ

関連テーマ 一覧


月別リンク

ブログ気持玉

クリックして気持ちを伝えよう!
ログインしてクリックすれば、自分のブログへのリンクが付きます。
→ログインへ

トラックバック(1件)

タイトル (本文) ブログ名/日時
「ScanSnap でスキャンした画像を OCR してみる」について
「ScanSnap でスキャンした画像を OCR してみる」について 今日、さらに微調整を加えてみた。 ...続きを見る
民芸的プログラミング 〜ソフトウェア開発...
2010/01/28 23:01

トラックバック用URL help


自分のブログにトラックバック記事作成(会員用) help

タイトル
本 文

コメント(0件)

内 容 ニックネーム/日時

コメントする help

ニックネーム
本 文
ScanSnap でスキャンした画像を OCR してみる 民芸的プログラミング 〜ソフトウェア開発日記〜/BIGLOBEウェブリブログ
文字サイズ:       閉じる