Извлечение встроенных изображений из PDF-файла

Воспользуйся pdfimages

pdfimages это инструмент извлечения изображений в формате PDF, который сохраняет изображения в PDF-файле в формате PPM, PBM, JPEG или JPEG 2000.

Это часть poppler-utils пакет, который вам нужно будет установить.

Использование: pdfimages [options] <PDF-file> <image-root>

  • вариант -all будет извлекать изображения в оригинальный формат.
  • вариант -j будет извлекать изображения в формате .jpg (предостережение: изображения преобразуются, и обычно их размер больше, чем у оригинала)

Пример1: Следующее извлекает все изображения из PDF-файла, сохраняя их в исходном формате.

pdfimages -all in.pdf /tmp/out

Пример2: Следующее извлекает все изображения из PDF-файла, сохраняя их в формате JPEG.

pdfimages -j in.pdf /tmp/out

Сохранит изображения из PDF-файла in.pdf в файлах /tmp/out-000.jpg (или /tmp/out-000.pbm; см. ниже), /tmp/out-001.jpg и т.д.


Изображения в формате pdf справочная страница объясняет:

-j:  Normally, all images are written as PBM (for monochrome images) or PPM for     non-monochrome images) files. With this option,  images in DCT format are     saved as JPEG files. All non-DCT images are saved in PBM/PPM format as usual.