pdftotext


オープンソースのpdfファイルからtextファイルを生成してくれるソフトウェア。


Xpdfというソフトウェアに含まれているため、Xpdfをインストールする必要があるが、単体のコマンドラインのソフトウェアのため、単体で使うこともできる。


日本語を使うこともできるが、その場合は、同じ場所に置いてあるLanguage Support PackagesのJapaneseをダウンロードしてきて、下記の手順で設定作業をする必要がある。

  1. XpdfのホームページからPrecompiled binariesのWin32版とLanguage Support PackagesのJapaneseをダウンロードする。
  2. xpdf-3.01pl2-win32.zipを解凍し、適当な場所に置く。
  3. xpdf-japanese.tar.gzを解凍し、適当な場所に置く。
  4. xpdf-japanese.tar.gzを解凍したフォルダにあるadd-to-xpdfrcをxpdf-3.01pl2-win32.zipを解凍したフォルダに置く。
  5. add-to-xpdfrcをxpdfrcにリネームする。
  6. xpdfrcをエディタで開く。
  7. /usr/local/share/xpdf/japanese/の部分をxpdf-japanese.tar.gzを解凍したフォルダの場所に書き直す。


Xpdf
http://www.foolabs.com/xpdf/home.html