データ化編です。
おまたせしている人がいるのかどうか、需要があるのかどうかわかりませんがとりあえず最後まで書いていこうと思います。
ちなみに以前の記事はこの2つ
前回でpdfデータに本をすることができました。
今回はそのあと自分がどうしているかについて話していきたいと思います
その前に今回使うものです。
今回使うのは2つ。
一つが
PDF-XChange Editor
こちらフリーソフトです。OCRソフトにブックマークというかアウトラインといいますかを作成するためにこちらを利用しています。
ちなみにいつもPDFを見るときに使うソフトもadobe acrobatではなくこちらを採用しています。理由は単純で軽く、いろいろ無料でできるからです。
Adobe acrobatを買わなくてもこちらだけでもWindowsユーザーは使ってみるといいかもしれません。
少なくともPDFにブックマークを入れるという点においてやりやすさはいろいろ試しましたがこいつが自分の中では一番です。
もう一つは
Adobe acrobat DC
PDFのOCRおよび最適化と呼ばれるファイルサイズを小さくするために使用します。
また、ページの整理についてもこちらで行っています。
こちら2つを使っていきます。
具体的な流れと致しましては
①PDFデータにミスがないか目視で確認(省略可)
②OCRをかける
③PDFにブックマークをつける
④PDFの最適化(ファイルサイズ削減)
この流れで行っています。
はっきりいってこのデータ化編はいらない人はいりません。
PDFを使いやすくするために行っている作業であって前回のスキャン編でPDFデータができればあとはそのデータを使用可能です。
なので、これは記録というか個人的にどんなことを行っているかの紹介みたいなもんです。よろしくお願いいたします。
では、紹介していきます。
①PDFデータにミスがないか目視で確認
この作業はその名の通りPDFにミスがないかを確認していきます
使うのはAdobeのページ整理という機能です。
このような状態にして下までざっと流し見してページの抜けがないかどうか確認します。
(今回は参考にimedicine 1を使用しています。念の為モザイク加工もしました。大事なところには丸しときました)
また、これは③PDFにブックマークをつけるにつなげるために行う作業ですがデータのページ数とページ番号を一致させます
その本にもよりますが基本的に表紙やその他目次などをページ番号に入れていない本が多くあり、ページ番号とデータのページ数が異なるということが多々あります。そういうものに対して私は実際の正しいページ番号をブックマークに登録することで対応しています。こうすることでタブレットなどで参照する際楽になると考えているからです。もちろん全部自分でブックマークを登録するのであればそれにこしたことはありませんが...
そのため、上記のように目次を抜かしたデータを作成しています
この総論の部分より上はこの画像に見えています抽出をクリックし、別に保存しております。
最終的にこちらを合体させて終了です。
これから先③ブックマークが終わるまで基本的に使うデータはPDFのデータと実際のページ数が同じになっているものを使っています。確認のほどよろしくどーぞ
とりあえずここはページの抜けの確認とPDFのページ数を合わせるということを行います。
(ページ数が空白ページ抜けにより合わないなどといった場合は挿入→空白ページより挿入することでページ数調整可能です)
②OCRをかける
次にスキャン補正の補正→スキャンした文書
ページ:すべてのページ で テキスト認識にチェックをいれて補正を行います
で、放置。終わったらOCR終わり。OCRって簡単やね
③PDFにブックマークをつける
で、ブックマークをつけていきます
ここからPDF X-change Editorで。
Ctrl+Bでブックマークバーを左に出して、page10でページ10のようにブックマークをつけていきます(ブックマークをつけるときはCtrl+Shift+B)
ちなみに自分は他でもこのブラックマークを使い回せるようにブックマークバーの歯車マーク→ブックマークをエクスポートからブックマーク情報をエクスポートしています
④PDFの最適化(ファイルサイズ削減)
ここまできたらあとはほぼ終わり。PDFをAdobeのページ整理から他に保存しておいた表紙とかと合体させます
そのあとPDFの最適化。
PDFの最適化→高度な最適化で設定は以下の通り
(いろいろ試したオリジナルブレンドです。お納めください)
これでOK押して完成まで待てば終了。
だいたい100MBとかにきれいな状態で圧縮してくれるんじゃないでしょうか
以上です。
これでそれなりのいい感じの使い勝手のいいPDFデータができたかと。
参考にしてみてください
わからないことあればマシュマロとかで教えてください。
補足
どうでもいいですか、ページの整理はフリーソフトでも代用可能です
具体的には
これらなど。無料でなんとかしたいという方はこちらをご参考に。
それでもOCRについては厳しいです。
どうにかなんとか無料でってなら文字に埋め込みはできませんが、文字の抽出だけならgoogleのサービスを使うことで一応できます。参考までに