Como extrair textos ou imagens com o pdfimages no Linux!

Emanuel Negromonte
3 minutos de leitura

O pdfimages é um comando muito útil, mesmo que alguns usuários mal conhecem esta ferramenta. Nesta dica, iremos ensinar Como extrair textos ou imagens com o pdfimages. Em primeiro lugar, instale os utilitários necessários, em alguns casos o pacote pode vir já instalado em sua distribuição.

No Ubuntu 18.04 LTS e o no Fedora 29 pacote já estava instalado. Então é só executar os comandos sem a necessidade de instalação.

Como extrair textos ou imagens com o pdfimages

A instalação do pacote, caso não haja no seu sistema operacional, execute os seguintes comandos:

Para instalar o pdfimages no Ubuntu, Linux Mint, Debian:
$ sudo apt-get install poppler-utils
Para instalar o pdfimages no Fedora:

$ sudo dnf install poppler-utils

Para instalar o pdfimages no RHEL ou CentOS, execute:

$ sudo yum install poppler-utils
Para outras distribuições Linux, procurar por poppler-utils em seu gerenciador de pacotes. Este comando irá extrair todas as imagens de “arquivo.pdf” e colocá-los no seguinte diretório:

$ pdfimages -j arquivo.pdf ~/pdfimages/

Os arquivos JPEG serão salvas com a extensão PPM com pdfimages menos que você especifique o parâmetro “-j” (para JPEG).

A vantagem de pdfimages é que ele vai extrair as imagens originais, incorporado no arquivo PDF. Vamos supor que por exemplo:

Eu extraí um PDF de uma propaganda antiga para que eu pudesse usar algumas imagens para um convite e fiquei bastante surpreso ao descobrir que a imagem incorporada era muito maior e mostrou muito mais da foto quando extraído do que quando incorporado, normalmente as pessoas que criam PDF com imagens alteram-na e com esta ferramenta você poderá obter essa imagem em seu formato original.

Este comando irá extrair todo o texto atual e colocar um arquivo com o mesmo nome como o PDF, mas com extensão TXT (pdffile.txt) no mesmo diretório do arquivo de origem:

$ pdftotext pdffile.pdf

Por favor, observe que este comando só vai extrair o texto real. Se o PDF contiver imagens com texto impresso sobre eles, então isso não vai funcionar.
Share This Article
Follow:
Fundador do SempreUPdate. Acredita no poder do trabalho colaborativo, no GNU/Linux, Software livre e código aberto. É possível tornar tudo mais simples quando trabalhamos juntos, e tudo mais difícil quando nos separamos.