ScanSnapで紙の資料をデジタル化(検索可)

 スキャナを導入する理由は小説をPDAや携帯で読むためだったり、単純に溜まった紙の資料を整理するため、などがありますが、もっとも便利なのはデジタル化により検索ができることです。もちろん、そのためにはスキャンした後にOCRをかけなければなりませんが、ScanSnapは簡単にできます。それが「検索可能な PDF ファイルへ変換する」機能です。以下大きな画像を張ってるので、続きを読むでどうぞ。

しくみは、↓のとおりです(ヘルプファイルの引用)

通常、スキャナで紙文書を読み取って PDF ファイルに保存する場合、そこに書かれている文章、写真、グラフなど、すべての情報を 1 つのイメージとして出力します。
この場合、そこに書かれている文字はイメージであるため、テキストファイルのように文字情報として検索することができません。
そこで、このイメージデータに OCR 処理(文字認識)をかけて、文字部分を文字情報として取り出し、このイメージデータの後ろに見えない情報として重ねます。この状態で PDF ファイルとして出力することにより文字情報をもったイメージデータとして保存されます。
この場合、見た目はイメージデータですが、文字情報も併せ持つため、テキストファイルと同じように検索可能な PDF ファイルとなります。

 透明な文字情報を重ねる作業ですが、スキャンと同時にもできるし、スキャンした後でもボタン一つで可能です。また、すぐに処理する場合のほか、PCがアイドル状態の時に作業をするという選択もできます。試しにスキャンしたのは日経PCのExcelの記事ですが、12ページ(紙としては6枚)で2分くらいで変換できました*1。結果は↓な感じです。

 OCRは遙か昔に使ったことがあるんですが、そのときは精度が悪くて諦めましたが今は良くなっているんですね。また、今回のように透明の文字情報を埋め込むやり方は(精度が悪くても)スキャン画像そのものしか見ないので、精神衛生上良いような気がします。

 スキャンしたデータが簡単に検索可能なデジタルファイルにできるのは、情報管理においては重要ですので、これだけでもScanSnapを購入する価値があると思います。

*1:ちなみに、読み取りモード=ファインにして、7〜8秒/1枚のスピードで読み取れます。参考までにPCはCore 2 Duo E6600でメモリ2GBでVista