Nova versão

Lançamento do Tesseract 5.5.0: melhorias em OCR e suporte a novas plataformas

Imagem com o símbolo OCR com fundo azul

A nova versão da ferramenta de reconhecimento óptico de caracteres (OCR) Tesseract, a 5.5.0, já está disponível. Essa atualização traz uma série de aprimoramentos que tornam o Tesseract mais eficiente, especialmente para desenvolvedores e usuários que trabalham com grandes volumes de texto em diversos idiomas, como russo, cazaque, bielorrusso, e ucraniano. Com suporte a Unicode, o Tesseract agora oferece ainda mais flexibilidade para o reconhecimento de textos em mais de 100 idiomas. Os resultados podem ser salvos em vários formatos, incluindo HTML (hOCR), XML (ALTO), PDF, e TSV, aumentando as possibilidades de integração em diferentes tipos de projetos.

Originalmente desenvolvido pela Hewlett Packard entre 1985 e 1995, o Tesseract foi posteriormente disponibilizado como código aberto sob a licença Apache em 2005, quando seu desenvolvimento passou a contar com contribuições da Google. Desde então, a ferramenta evoluiu e se consolidou como uma das soluções de OCR mais robustas do mercado.

Funcionalidades principais e melhorias da versão 5.5.0

O Tesseract 5.5.0 inclui a interface de linha de comando, além da biblioteca libtesseract, que permite a integração de suas funções em outras aplicações. Diversas interfaces gráficas (GUI) de terceiros, como gImageReader, VietOCR e YAGF, facilitam o uso do Tesseract para usuários menos experientes. A ferramenta oferece dois motores de reconhecimento: o clássico, que trabalha no nível de caracteres individuais, e o baseado em redes neurais LSTM (Long Short-Term Memory), que utiliza aprendizado de máquina para processar o texto em linhas inteiras, aumentando a precisão e a eficiência.

Melhorias na performance

Para otimizar o desempenho, a nova versão incorpora o uso de instruções SIMD, como AVX2, AVX512F, NEON, e SSE4.1. Além disso, o suporte a extensões vetoriais RISC-V V foi adicionado, permitindo a criação de otimizações específicas para processadores RISC-V, cada vez mais populares no mercado.

Outros aprimoramentos incluem:

  • Modificações no formato hOCR: o Tesseract agora define automaticamente os parâmetros ocrp_dir e ocrp_lang, garantindo melhor usabilidade no formato HTML.
  • Otimizações na biblioteca de modelos de idiomas: melhorias na identificação das modelos disponíveis tornam a seleção de idiomas mais rápida e precisa.
  • Compatibilidade com Windows: aprimoramentos no instalador facilitam a configuração e evitam a necessidade de conversão de nomes de arquivos.
  • Novas opções de configuração: agora, é possível definir valores simbólicos para as opções --oem e --psm, simplificando a personalização do processo de OCR.
  • Substituição de Tensorflow: o suporte ao Tensorflow, que nunca foi utilizado efetivamente, foi removido para simplificar o código e melhorar o desempenho.
  • Atualização de submódulos: o submódulo googletest foi atualizado para a versão 1.15.2, aprimorando a qualidade e confiabilidade dos testes de software.

Principais mudanças no código e melhorias técnicas

Essa versão também conta com melhorias no código-fonte. Funções como access e _access foram substituídas por std::filesystem::exists(), visando uma abordagem mais moderna e eficiente de verificação de arquivos. A substituição de tprintf pelo fluxo de mensagens tesserr aprimora o código e elimina alguns avisos para compiladores do Windows. Além disso, o uso regular de CMAKE_INSTALL_LIBDIR e GNUInstallDirs permite uma melhor organização e compatibilidade durante a instalação do Tesseract em diferentes ambientes.

Essas melhorias fortalecem o Tesseract como uma solução de OCR versátil e de alto desempenho, atraindo tanto desenvolvedores que buscam uma solução para integrar em suas aplicações quanto usuários que necessitam de uma ferramenta robusta e prática para digitalização e reconhecimento de textos.

Com a versão 5.5.0, o Tesseract amplia suas capacidades de reconhecimento de texto, tornando-se ainda mais competitivo e abrangente no mundo do OCR. Para usuários que necessitam de uma ferramenta flexível e com excelente suporte a diversos idiomas, o Tesseract continua sendo uma excelente escolha. Explore essa atualização e acesse a página oficial de lançamentos do Tesseract para obter mais detalhes ou baixar a nova versão.