その他

  • 御意見等は此方

ブログ powered by TypePad

« ATOK 2008 for Mac 辞書ユーティリティの文字化け | メイン | 複数原稿の連続スキャンと PDF ファイルの圧縮率 »

2008/11/09

ドキュメントスキャナ・ ScanSnap S300M を使用する

ドキュメントスキャナ・ ScanSnap S300M を使用する

(注)記事が長くなりすぎ、走り読み時の便を損なっているので、複数に分割。

選択理由

購入時、次のような事情を踏まえ、廉価なモデルを選択した。

  1. B4 や A3 の原稿を読み取らせる機会は少ない
  2. 書籍の切り抜きを電子化するという意識で運用

    一挙に読み取らねばならない枚数が少ない

  3. Acrobat 8 Professional (のライセンス)を既に保有している

なお、これ以後の文中では、"Acrobat 8 Professional" を短縮して、単に "Acrobat" と呼ぶ。また、 "ScanSnap S300M" に関しても同様に "ScanSnap" と略記する。

S300M からスキャニングしたデータを渡す

Acrobat が付属していない下位モデルのハードウェアから(手持ちの) Acrobat へとデータを渡す為に、少々設定値を改変しなくてはならない。

「読み取り設定の選択」プルダウンメニューが「標準」となっている状態であると仮定し、次の操作を行う。

  • メニュバー内の ScanSnap Manager 下位項目に「クイックメニューを使用」項目にチェックがあれば、一度選択して印を外す。
  • メニューバー内、ScanSnap Manager →設定をクリック
  • 「読み取りと保存に関する設定」ダイアログが表示される
  • 前出の「クイックメニューを使用」項目から印が外れていれば、左端にある「アプリ選択」タブが選択可能になっている
  • アプリケーションの選択・プルダウンメニューから、 "Adobe Acrobat 8 Proffesional.app" を選択

「読み取りと保存に関する設定」ダイアログ

「読み取り設定の選択」プルダウンメニューが「標準」となっている状態であると仮定し設定値を保存(任意に名称を指定した設定の保存も可能)。ショートカットキーは cmd + S キー。

次に挙げる項目名は、ダイアログ内にある各タブごとの名称である

  • アプリ選択

    「アプリケーションの選択」プルダウンメニューを"Adobe Acrobat 8 Proffesional.app"

  • 保存先
    • 「イメージの保存先」テキスト入力エリア: 任意の絶対パスを記入( Acrobat や ScanSnap Manager が配置されたハードディスクとは異なる、書き込み速度の勝る媒体にしておけば、若干パフォーマンスが良くなる……と思われる)
    • 「ファイル名の設定」ボタン: 日付のまま変更無し、変更したいのならボタンをクリック→新たに表示されるダイアログ内で設定可能
  • 読み取りモード
    • 「画質の選択」プルダウンメニュー: (読み取る原稿によって変更)(*1)
    • 「カラーモードの選択」プルダウンメニュー: カラー
    • 「読み取り面の選択」プルダウンメニュー: (読み取る原稿によって変更)
    • 「継続読み取りを有効にします」チェックボックス: 印を外す(*2)
    • 「オプション」ボタン: クリックすると、新しくダイアログが表示される
      • 「白黒読み取りの濃度」スライダ: 中央の「標準」のまま維持
      • 「文字をくっきりします」チェックボックス: 印を外す(*3)
      • 「白紙ページを自動的に削除します」チェックボックス: 印を外す
      • 「文字列の傾きを自動的に補正します」チェックボックス: 印を外す……文字情報しかスキャンしないのなら、印が付いている状態で良い(*4)
  • ファイル形式
    • 「ファイル形式の選択」プルダウンメニュー: PDF(*.pdf)
    • 「オプション」ボタン: クリック→最前面に表示される「PDF フォーマットオプション」ダイアログで"すべてのページを 1 つの PDF ファイルにします"ラジオボタンを選択状態にする(初期状態)
  • 原稿サイズ
    • 「原稿サイズの選択」プルダウンメニュー: サイズ自動検出
    • 「カスタマイズ」ボタン: 直上のプルダウンメニューにない、特殊な判型を設定したい場合、このボタンをクリックすると新たに現れる「カスタム原稿の追加と削除」ダイアログにて指定可能
    • 「幅や長さの違う原稿を同時に読み取ります」チェックボックス: 印を付ける
  • ファイルサイズ

    「圧縮率」スライダ: 中央の「標準」に合わせる(初期設定)。カラー原稿のみ有効

(*1) 「画質の選択」プルダウンメニューで「エクセレント」を指定すると、「利用しているコンピュータによっては、処理の完了まで非常に時間がかかるかも知れない」という主旨の警告が表示される。

使用間もない頃の憶測、根拠が薄弱で不適当な内容の為削除 (*2) 雑誌に使われるような薄い紙で、継続読み取りを有効にすると紙詰まりを起こすようなので、敢えてチェックボックスは外したまま

「文字をくっきりします」チェックボックス

「文字をくっきりします」は、数多あるカラー原稿を読み取るにあたっての設定値中、最も注意すべきオプションであるといっても過言ではない。

文意に意図せぬぶれを與へき箇所、削除「白黒読み取りの濃度」ダイアログにある上のチェックボックスは、白黒原稿だけに影響を与える訳ではない。

少なくとも下の条件を満たす場合、カラー原稿の読み取りに於いて、全体にわたって各色の濃い部分が、一様に黒へと近付く。

  1. 「読み取りモード」タブ内、「カラーモードの選択」プルダウンメニューで「自動」を選択……「カラー」でも同様の結果になるだろうと思われる
  2. 「オプション」ボタンをクリックして現れる、「白黒読み取りの濃度」ダイアログの「文字をくっきりします」チェックボックスに印を付ける

画像データからテキスト抽出を容易にする為、近似した色の範囲で推移するグラデーション部分を捨てつつ、画稿全体のコントラストを強調する設定なのだろう。図版そのものの色合いが重要であるなら、迷わず印を外すことを推奨する。

曲がって読み取られてしまう原稿について

文字列を最優先に水平 / 垂直を保つよう読み取る設定値の為に、同じページ内にある図画を無視した結果、斜めになってしまう、ということらしい。

解除する方法は以下に記す。

  1. ScanSnap Manager の「読み取りと保存に関する設定」ダイアログボックス・「読み取りモード」タブを選択
  2. 「オプション」ボタンをクリック
  3. 「読み取りモードオプション」というダイアログが出る
  4. 「文字列の傾きを自動的に補正」チェックボックスから印を外す

特に、両面読み取りを行っていると——片面は文字のみ、裏は図画といった工合の原稿に出会す機会は多い。

上で挙げた文字補正は「文字のある面」のみを対象にする訳ではない……一緒に読み取っている裏側の画稿は、強制的に傾けられてしまうのだ。すると、画稿の端に「ひとつの角が直角で、その角を作る一辺だけが短く、且つ他の二辺が極度に長い三角形」の空白地帯が、ページの四隅に生じる。

白紙ページを自動的に削除します」設定の善し悪し

「白紙ページを削除」の設定を有効にしている場合、「本来のページのノンブル(番号)」と、「PDF として出力されたドキュメント内で割り振られるページ番号」の間で食い違いが起こる。

そして、ページ総量の相違が「マルチフィード発生によるページの逸失」か、それとも「白紙ページを読み取らなかった」所爲なのかは、 PDF の内容を肉眼で校閲する他ない。

——詰まり、だ。白紙を取り除いてしまうと、『一度にスキャンした原稿の枚数 = PDF のページ数』という単純な式が成り立たないので、白紙が原稿に何枚あるのか手ずから確認して差し引かねば、全てのページを確実に読み取り得たかの真偽は、分からない。

本項で述べた確認作業は手間を食う。また、 PDF 書類内に白紙のページを残しておいたとしても、然して容量が嵩む訳ではない。

ディスクスペースが潤沢で、且つ「時は金也」という心情ならば——いっそ、「白紙を削除」の設定は無効としておいた方が良いか。

環境と読み取り設定

OS のバージョンは MacOS X 10.5.5 、 ScanSnap Manager のバージョンは 2.2L30 の組み合わせで使用。出来るだけ読み取り速度を公平に記録する為に、読み取り時の条件を一致させるべきだろう。それらは次に示す。

  • 予め Acrobat を起動
  • ScanSnap の電源を投入、バスパワーで稼働させると処理速度が低下するらしいので(公式ページ・ScanSnap S510M/S300Mのご質問: S510M と S300Mの違いを教えてください) AC アダプタで電源を賄う
  • コンピュータとは USB 2.0 ケーブルで接続。しかしポート数が不足しているので、致し方なくハブを経由
  • Acrobat 側のページ表示設定は、 "単一ページ" としておく

    メニューバー内、「表示」→「ページ表示」→「単一ページ」を選択

  • 比較には同一の原稿を使って読み取った結果を用いる。スキャナに装填する上下の方向も一致させる
  • CPU ・メモリ使用量を可能な限り確保する為、必要最低限のアプリケーション以外を終了させる
  • 計測時間単位は秒

    時間はストップウォッチを使用した手動計測なので、ばらつきが予想される。この不確かさを考慮し、秒に満たない端数を一律切り捨てる

  • 作業の「開始」は、原稿を設置し、ScanSnap のボタンを押し込んだ時点とする
  • 作業が「終了」したと見做すのは、Acrobat のドキュメントウィンドウに読み取られたデータが最後まで表示された時点(無論、複数の PDF ページが生成されている場合、最初のページが表示されて以後も処理が継続されている)

実測・フルカラー

結論の一部を先取りして述べておく——誰しも予期する通り、両面読み取りを行うと、ファイルサイズがほぼ 2 倍になる。しかし、読み取りにかかる時間の差は、僅かに数秒だけである。

フラットベッドスキャナであれば、原稿を裏返して同じ作業を繰り返し行わなくてはならぬ所を、唯一度のスキャニングで済むのは便利だ。

原稿の特性

紙面の上部に書名が位置する。中心は人物が占め、周囲を多数の見出し・惹句が取り囲む。

紙は本紙と比べて厚め、表面を塗工剤が覆っているか、或いは複数の異なる紙を貼り合わせたものか

表 1(書名等が大きく書かれた、通俗の「表紙」)側には PP 加工がされている。だが、表 2 (表 1 と同じ紙の裏側、「裏表紙」ではない)は PP 無し……白色度が高いので、おそらく塗工紙と思われる。

(注)PP ……紙の表面にポリプロピレン製の薄膜を貼付、強度と撥水性を向上させる。雑誌の表紙を指で触れてみて「つるつる」していれば、この加工が為されていると思って良い

A4 フルカラー 4 色・ 1枚(雑誌の表紙)
画質読取面時間サイズ概要
ノーマル片面8377KB拡大表示するまでもなく、図像にあるグラデーションのあちこちに不自然さが窺える。拡大率を 200% にして表示すると網点の雑さが露呈され、見苦しい有様
両面8763KB
ファイン片面9594KB200% 拡大の時点で、荒れが見え隠れするようになる。規則正しい斜線となって表出するので、何処となくデニム地を思わせる。300% まで拡大すると、はっきり荒れが判別可能
両面101.1MB
スーパーファイン片面131.2MB200% 拡大までは、色の階調が推移している部分に目星を付け、かなり注意深く観察しないと荒れを見付けるのが難しい。400% 拡大表示に至って、漸く粗が目立つようになる
両面142.3MB
エクセレント片面434.4MB400% 拡大表示から荒れが目につき始めるが、解像度が大きい為、網点は密集しており、大して気にならない。 500% 以上になると、個々のドットを明瞭に判別出来る——フルカラー( 4 色刷り)の雑誌をルーペで見た場合の情景と酷似する
両面468.0MB

実測・モノクロ

原稿の特性

見出しやヘッダ・フッタが配置され、図版も小さなものが一、二点あるが、全体としては二段組みの横書きテキストが多勢を占める紙面。

再生紙に黒インク印刷。紙質が良くないので(とはいえ、週刊マンガ誌のような、酷いざらつきはない)ところどころ、黒ベタの部分にインクがのりきっていない斑が見受けられる。

寸法は同じだが、読み取った原稿が異なる為、単純な比較からなるこの推論は不適切、削除

生成されるファイルの容量は、極大雑把にフルカラーの 1/2 以下と見積もっておけば間違いないだろう。

A4 モノクロ・ 1枚(雑誌中の 1 ページ)
画質読取面時間サイズ概要
ノーマル片面8168KB100% 表示の状態では、テキストの輪郭が暈けているような感じを受ける。拡大して見ると、紙の繊維へインクが滲んだ所為か、線の縁にジャギが目立つ。また漢字の字画にある狭い空白が黒く潰れてしまっている(「書」、「標」の字などで顕著)。掛け網部分はグラデーションそのものが失われ、歪な模様となっている
両面10376KB
ファイン片面9260KB全体的に、「ノーマル」よりは明瞭になっている。 300% 程度のズームアップを境に、インク浸透による滲出で文字が見辛くなる。掛け網は多少ましになるが、濃淡の激しい斑文である
両面10572KB
スーパーファイン片面13556KB「ノーマル」、「ファイン」で潰れが酷かった文字の一部で、字画中にある空白部分の視認性が上がっている。400% 拡大にまで達すると、白抜き部分に潰れが目立ってくる。網部分も、それなりに見られる水準となる
両面151.2MB
エクセレント片面431.6MB流石に、極端に画数の多い漢字以外は綺麗に読み取れる。掛け網も許容範囲(大体、元の原稿でも、斑を出さずに印刷出来てはいない)
両面503.4MB

(補足)富士通サイト内 FAQ ・ScanSnap S510M/S300Mのご質問: 設定できる解像度を教えてください

上の FAQ ページによると、各々の読み取りモードは、対応する解像度が固定されている模様

所要時間について

フルカラー・モノクロの間で顕著な差は見られない——意外というべきなのだろうか、何故かモノクロ原稿の方が時間がかかりがちな結果である。文字が多い為か

「ノーマル」から「スーパーファイン」までの所要時間を眺めてみると、作業終了までにかかる時間の差は、それぞれ数秒ずつしかない。だが、両面での「エクセレント」を指定した読み取りは、単純に「スーパーファイン」と比較してみるだけでも、 3 倍前後の時を要する。成る程、設定変更の際に態々警告をしておいた方が良かろうとの配慮を行うだけの時間差がある。

OCR を用いたテキスト抽出について

テキストを取り出しやすい原稿

スキャニングで得られたデータを元に創られた PDF ファイルから抽出し易いテキストは、或る明快な傾向が見られる。それは「一定の広さを取った白い余白に囲まれている、黒い文字」ということ。

稀に、「黒地に白い文字」の組み合わせでもテキストを取り出せたが(テキスト化された絶対量が少な過ぎるので)如何なる状況でも有効なのか判断をしかねる——但し、スキャニングに於いて重要なのは「固定の色」ではなく、「コントラストの強弱」こそが焦点だということは覚えておいても損はない。

画質設定について

無論、 OCR が「正しい」文字を取り出せるか否かは、どれだけ精細なスキャニングを行ったか——即ち、解像度——に多大な影響を受ける。原稿上でごく小さな文字で書かれた文章であっても、「エクセレント」ならば、認識率はかなり高めとなる(とは言え、誤謬が皆無というほどでもない)。

下位の画質になるほど、読み取り完了までの時間は短くなり、それに反比例してテキストが正しい認識される率は下降の一途を辿る……最低水準の「ノーマル」では 6 割程度だろうか。読み取った部位によりては、全く使い物にならないことも。

抽出されたテキストの観察

原稿上の小さい文字は、 OCR で抽出されても誤った認識結果で使い物にならない傾向が強い。

かと思えば、一文字一文字が大きく、容易に判読出来ようとも、ロゴや見出し——多々、装飾的な縁取りや白抜き、枠線・囲みを伴う——の中にあるテキストは、極めて抽出されにくい模様。例え、運良く局所的に抜き出せたとしても、全く見当違いの字とされてしまい、原型を留めぬ戯言の切片と化すのが関の山では無かろうか。

特筆すべき事項として、フルカラー側の表 1 は、見出しに文字があるにも拘わらず、全くテキストを抽出出来なかった(過度に装飾が施されている為だろうか)。

白黒で文字中心の原稿でも、極端に文字詰めされ、字間の空隙がない部分は、正しくテキストを認識出来る確率が低下する。

上と同じ理由で、小さな文字がボールド体で書かれている際に(デザイナが調節しなければ)字間が詰まる——これによって、字画中の白抜きを潰してしまうからか、一定以上の大きさで印刷されたボールド体の文字と比較すると、認識率が押し並べて悪くなる。

よく、鉤括弧開き側が半角 "f", "F" 、 鉤括弧閉じ側が半角 "j", "J" になっている。また、黒く塗りつぶされた記号「●」、「■」などは、その都度その都度、全然異なる文字に解釈される

ひらがな、カタカナに関しては「ノーマル」画質設定であっても、そこそこまともなテキストが取り出せる。元々漢字を宮中で簡略化した字体なのだから、画数も少なく空白部にも事欠かぬ。道理に適う帰結だ。

その他

上部・給紙カバーを開くと、表面からは窺うことの出来なかったシュータガイド(原稿を支持する折り畳み式延長部)と、カバーオープンレバー(清掃時や詰まった紙を取り出す時に使うボタン)の両方が露わになる工夫は、筐体の小型化に一役買っている。

読み取りが完了した PDF ファイル群を一つにまとめる

以下に手順を記す。

  1. Acrobat メニューバー内・「ファイル」→「ファイルを結合」
  2. 出現する「ファイルの結合」ダイアログで "ファイルを追加" ボタンをクリック
  3. 更に新しく表示されるファイル選択用ダイアログで、 PDF を出力しているフォルダへ移動
  4. フォルダの中にある 必要な PDF ファイルを選択状態にしてから、 "ファイルを追加"ボタンをクリック
  5. 再度、操作が「ファイルの結合」ダイアログに戻る。 結合する時の順番を変えたいなら、任意のファイルを選択状態にして"上に移動" 乃至、 "下に移動" ボタンで入れ替え可能
  6. 同ダイアログ下部にある「ファイルサイズと変換設定を選択」枠内のラジオボタンは "標準ファイルサイズ" の儘で良い
  7. "次へ" ボタンをクリックすると、画面が遷移する
  8. 「結合 PDF ファイルの種類を選択」枠で、 "ファイルを単一の PDF に結合" を選択
  9. "作成" ボタンをクリック。画面が切り替わり、プログレスバーが結合の進捗状況を逐次報せてくれるので、暫く待つ
  10. "保存"ボタンをクリックすると、フォルダ選択ダイアログが現れるので、任意の場所で名前を付けてファイルを保存

まとめ

スキャニングの速度と、テキスト抽出の確かさを共に重視するなら、画質の設定値は「スーパーファイン」、或いは「ファイン」が良いだろう。

テキスト化の確実性を高めたい、或いは、図画の電子的複製を半永久的に保存したいという需要があるならば、「エクセレント」が良い。

色々な意味で特殊な紙面であるマンガ原稿の場合、抑もの印刷状態が芳しくないことも相まって、「総合的な視認性」の確保だけで妥協しなくてはならないだろう。不十分な成果しか期待出来ない科白のテキスト化は、端から諦めた方が無難である。

参考リンク

(注)上位モデルの記事も含む。

ITmedia Biz.ID 仕事耕具:iPhotoとも連携、ScanSnapにMac専用の白モデル

マイコミジャーナル 【レビュー】PFU「ScanSnap S300M」 - 待望のMac OS X専用モデル

雑文発散 Mac 用の ScanSnap S510M で OCR 認識してみたよ(2008-04-14)

槻ノ木隆のPC実験室マイナーバージョンアップのPFU「ScanSnap S510」 …… 2007年リリースの Win 版 ScanSnap S510だが、有為な情報を多く含む

pnpk.netScanSnap S500のインストールCDを失くしました

わなびざうるすドキュメントスキャナ ScanSnap・その1 ……その5 まであり。 Windows 版上位機種の使用に於ける細かな記述