GNU/Linux: Como extrair textos ou imagens em seu Ubuntu/Duzeru/Linux Mint/Fedora/Debian e derivados!

GNU/Linux: Como extrair textos ou imagens em seu Ubuntu/Duzeru/Linux Mint/Fedora/Debian e derivados!

Alguns usuário mal conhecem esta ferramenta que é muito útil, em primeiro lugar, instale os utilitários necessários, em alguns casos o pacote pode vir já instalado em sua distribuição, testei no Ubuntu 16.04 LTS e o pacote já veio instalado, então é só executar os comandos sem precisar instalar nada.

Para Ubuntu/Linux Mint/Debian/Duzeru:
sudo apt-get install poppler-utils
Para RedHat/Fedora:
sudo yum install poppler-utils
Para outras distribuições Linux, procurar por poppler-utils em seu gerenciador de pacotes.
Este comando irá extrair todas as imagens de “pdffile.pdf” e colocá-los no diretório /home/<seusuario>/pdfimages/:
pdfimages -j pdffile.pdf ~/pdfimages/
Os arquivos JPEG serão salvas com a extensão PPM com pdfimages menos que você especifique o parâmetro “-j” (para JPEG).
A vantagem de pdfimages é que ele vai extrair as imagens originais, incorporado no PDF – Por exemplo: Eu extraí um PDF de uma prograpaganda antiga para que eu pudesse usar algumas imagens para um convite e fiquei bastante surpreso ao descobrir que a imagem incorporada era muito maior e mostrou muito mais da foto quando extraído do que quando incorporado, normalmente as pessoas que criam PDF com imagens alteram-na e com esta ferramenta você poderá obter essa imagem em seu formato original.
Este comando irá extrair todo o texto atual e colocar um arquivo com o mesmo nome como o PDF, mas com extensão TXT (pdffile.txt) no mesmo diretório do arquivo de origem:
pdftotext pdffile.pdf
Por favor, observe que este comando só vai extrair o texto real. Se o PDF contém imagens com texto impresso sobre eles, então isso não vai funcionar.

Comentários