Dicas

Como extrair textos ou imagens com o pdfimages

0
Como extrair textos ou imagens com o pdfimages

O pdfimages é um comando muito útil, mesmo que alguns usuários mal conhecem esta ferramenta. Nesta dica, iremos ensinar Como extrair textos ou imagens com o pdfimages.

Em primeiro lugar, instale os utilitários necessários, em alguns casos o pacote pode vir já instalado em sua distribuição. no Ubuntu 16.04 LTS e o no Fedora 28 pacote já estava instalado. Então é só executar os comandos sem a necessidade de instalação.

 

Como extrair textos ou imagens com o pdfimages

A instalação do pacote, caso não haja no seu sistema operacional, execute os seguintes comandos:

Para Ubuntu/Linux Mint/Debian/Duzeru:
sudo apt-get install poppler-utils
Para RedHat/Fedora:
sudo yum install poppler-utils
Para outras distribuições Linux, procurar por poppler-utils em seu gerenciador de pacotes. Este comando irá extrair todas as imagens de “pdffile.pdf” e colocá-los no seguinte diretório:
/home/<seusuario>/pdfimages/
pdfimages -j pdffile.pdf ~/pdfimages/
Os arquivos JPEG serão salvas com a extensão PPM com pdfimages menos que você especifique o parâmetro “-j” (para JPEG).
A vantagem de pdfimages é que ele vai extrair as imagens originais, incorporado no arquivo PDF. Vamos supor que por exemplo: Eu extraí um PDF de uma propaganda antiga para que eu pudesse usar algumas imagens para um convite e fiquei bastante surpreso ao descobrir que a imagem incorporada era muito maior e mostrou muito mais da foto quando extraído do que quando incorporado, normalmente as pessoas que criam PDF com imagens alteram-na e com esta ferramenta você poderá obter essa imagem em seu formato original.
Este comando irá extrair todo o texto atual e colocar um arquivo com o mesmo nome como o PDF, mas com extensão TXT (pdffile.txt) no mesmo diretório do arquivo de origem:
pdftotext pdffile.pdf
Por favor, observe que este comando só vai extrair o texto real. Se o PDF contiver imagens com texto impresso sobre eles, então isso não vai funcionar.
Redação
Este usuário é utilizado quando um post é migrado de um usuário para outro, ou quando alguém envia um conteúdo ao SempreUPdate.

    AMDGPU-PRO 16.30 já está disponível para download

    Previous article

    Apresentando o GNOME 3.20!

    Next article

    You may also like

    Comments

    Leave a reply

    O seu endereço de e-mail não será publicado.

    More in Dicas