O pdfimages é um comando muito útil, mesmo que alguns usuários mal conhecem esta ferramenta. Nesta dica, iremos ensinar Como extrair textos ou imagens com o pdfimages. Em primeiro lugar, instale os utilitários necessários, em alguns casos o pacote pode vir já instalado em sua distribuição.
No Ubuntu 18.04 LTS e o no Fedora 29 pacote já estava instalado. Então é só executar os comandos sem a necessidade de instalação.
Como extrair textos ou imagens com o pdfimages
A instalação do pacote, caso não haja no seu sistema operacional, execute os seguintes comandos:
Para instalar o pdfimages no RHEL ou CentOS, execute:
Os arquivos JPEG serão salvas com a extensão PPM com pdfimages menos que você especifique o parâmetro “-j” (para JPEG).
A vantagem de pdfimages é que ele vai extrair as imagens originais, incorporado no arquivo PDF. Vamos supor que por exemplo:
Eu extraí um PDF de uma propaganda antiga para que eu pudesse usar algumas imagens para um convite e fiquei bastante surpreso ao descobrir que a imagem incorporada era muito maior e mostrou muito mais da foto quando extraído do que quando incorporado, normalmente as pessoas que criam PDF com imagens alteram-na e com esta ferramenta você poderá obter essa imagem em seu formato original.
Este comando irá extrair todo o texto atual e colocar um arquivo com o mesmo nome como o PDF, mas com extensão TXT (pdffile.txt) no mesmo diretório do arquivo de origem: