2013/02/09

ガイドブックをOCR処理して持ち歩こう 01



デジタルディバイスを活用して海外旅行にガイド本(ブック)持ち出そう



せっかくだから、iPadやiPhoneにガイドブックが入ったらどうだろうか? と始まった試みは、アプリ比較の域を脱しガイドブック(本)をどうこうしようという展開になってきた。





やっぱり本が持ち歩きたい!


アプリもいいが、目的がないと検索できない それがアプリ。
雑誌感覚で何となく捲る。そこから思いついて検索したり調べたりする幅を持たせたものは何か?と考えたら、「本」のカタチをした情報 ということになった。
気になった文字(テキスト)を検索できる機能を「本」に持たせる。
この使い方はiPhoneではなくiPadやiPad miniが適材だと思う。

その為には、印刷物をスキャンしてOCR処理するという作業が必要になるのだ。








ガイド本(ブック)をOCR処理するために 



だいたいの流れを以下に。

  • OCRの為の準備
  • コワーキングスペース活用のススメ
  • Scansnapについて、簡単に
  • Acrobat Proでページリンク処理
  • 持ち歩くためのディバイスとアプリ
  • GoogleMapsとの連携

これらを追って説明していくことにする





OCRの為の準備


「本」をバラす。

ちょっと高級なカッターナイフで地道に vs 何万円もする裁断機を買う アナタはどちら派?


私はどちら派でもない。
お近くに kinko's(キンコーズ) があるなら、迷わずkinko'sの「裁断サービス」。

基本料金:1冊1cmまで100円で切ってくれる。以降、1cm単位で100円追加。(記事投稿現在の価格)

ララチッタ、まっぷる、ことりっぷクラスなら1cm未満で各100円+消費税。
トラベルデイズ、個人旅行、地球の歩き方クラスなら200円+消費税 だ。


裁断機は、買えば誰でも綺麗に切れるというものではないそうだ。(購入者複数の意見)しかも、高額で置き場所もそれなりに確保しなければならない。
そう、購入者から諭されたのだ。

その点、キンコーズには「裁断職人」がいらっしゃって、非常に綺麗に裁断してくれる。 表紙の上にのった細長い短冊は背表紙だ。


kinko'sで裁断してもらったガイドブック。まっぷるとララチッタ。


たまに糊が多すぎて繋がっているところがあるので、完全に切離れているかは必ずスキャン前に確認を!





OCRの為にはスキャナーが必要


「フラットベッドスキャナで読む」なんてことはなくて

オートシートフィーダ式の両面スキャナが絶対オススメ。


たとえば、ScanSnapとか...




これから、ScanSnapで読み取る。

そう、これから読み取る の、だが...
買えるならScansnapを買うのも手だ。
けれど、そんなに自炊(書籍を裁断してスキャンし、デジタルデータに変換する)かな? と、考えた時 もう一つの選択肢がある。



「コワーキングスペース」の活用

コワーキングスペースは、電源・ネットワーク確保スペースや、高性能PCや大型タブレットの設置などノマドワーカーの為の仕事・出会いの場と思われがちだが、ノマドワーカー以外でも、十分活用できる。
たまにしか使わない機材を無料(スペースや機材によっては有料)で利用できる点だ。
今回なら、Scansnapとその後OCR処理する時に使うハイスペックPCを利用するという活用方法だ。



私がお世話になっているのは名古屋駅ちかくの コワーキングスペース ベースキャンプ名古屋(basecamp NAGOYA)さんkinko'sも近くにあって、何かと便利な立地条件である。
basecamp NAGOYAさんはセミナーを頻繁に行っているスペースなので、場合によっては機材が利用不可の時間帯があるかもしれない。事前にそういった情報をホームページで確認していくと、自炊仕事も捗る。


だいたい、30枚両面60ページ前後を読み取るのに、1分もかからない。

自炊作業:書籍「ララチッタ台北'13」の46ページ(23枚)分スキャン実際の様子





ScanSnapのOCR処理ソフトが凄い!


OCR処理はソフトの能力が肝


OCRはそれぞれ、アプリケーションの能力差が出る。
できれば、より速く、より正確に変換してくれるものだと有り難い。

そういう点、ScanSnap付属のOrganizerはバランスの取れたソフトだと思った。


付属の「ScanSnap Organizer」OCR処理は約50ページで15分ほどで完了する。
タスクは随時処理するようだ。
一律でも均一でもなく、「マシンが空いたとき」という処理法を選択することもできる。
やはりある程度のPCでの作業が望ましいことが容易に想像がつく。



スキャナーのボタンを押すと、勝手にスキャンするだけでなく
ファイル名を「日時秒.pdf」としてくれる
1冊を分割スキャンする必要があるので、これは助かる。



OCR処理が終わったら、分割スキャンでできたファイルを1冊にまとめて、ひとまず次のエントリーへ。




想像以上に処理が速くて...


思わず、もう1冊。

地下街の本屋で購入 → kinko's → コワーキングスペース → スキャン・OCR処理
これも、スペースの立地・処理の速さが成せるワザかと。

スマホアプリ「マップルリンク」に対応しているので、付属の地図はスキャンしなくてもOK
「マップルリンク」が使える、トラベルデイズ。
予想以上に早く処理出来ることが解ったので、一旦外に出て書籍を手に入れた

ちなみに。前エントリーで触れた スマホアプリ「マップルリンク」に対応している書籍なので、付属の地図はスキャンしなくてもOKという、どこまでも私向き。笑






関連ページ
コワーキングスペース ベースキャンプ名古屋(basecamp NAGOYA)
オーナーが「裁断機買う?」と言ったのを「買わないで、キンコーズ紹介したほうがいいよ」と言ったのは実は私だったりする。


関連エントリー
ガイドブックをOCR処理して持ち歩こう 00

Related Posts Plugin for WordPress, Blogger...