A nova versão da ferramenta de reconhecimento óptico de caracteres (OCR) Tesseract, a 5.5.0, já está disponível. Essa atualização traz uma série de aprimoramentos que tornam o Tesseract mais eficiente, especialmente para desenvolvedores e usuários que trabalham com grandes volumes de texto em diversos idiomas, como russo, cazaque, bielorrusso, e ucraniano. Com suporte a Unicode, o Tesseract agora oferece ainda mais flexibilidade para o reconhecimento de textos em mais de 100 idiomas. Os resultados podem ser salvos em vários formatos, incluindo HTML (hOCR), XML (ALTO), PDF, e TSV, aumentando as possibilidades de integração em diferentes tipos de projetos.
Originalmente desenvolvido pela Hewlett Packard entre 1985 e 1995, o Tesseract foi posteriormente disponibilizado como código aberto sob a licença Apache em 2005, quando seu desenvolvimento passou a contar com contribuições da Google. Desde então, a ferramenta evoluiu e se consolidou como uma das soluções de OCR mais robustas do mercado.
Funcionalidades principais e melhorias da versão 5.5.0
O Tesseract 5.5.0 inclui a interface de linha de comando, além da biblioteca libtesseract, que permite a integração de suas funções em outras aplicações. Diversas interfaces gráficas (GUI) de terceiros, como gImageReader, VietOCR e YAGF, facilitam o uso do Tesseract para usuários menos experientes. A ferramenta oferece dois motores de reconhecimento: o clássico, que trabalha no nível de caracteres individuais, e o baseado em redes neurais LSTM (Long Short-Term Memory), que utiliza aprendizado de máquina para processar o texto em linhas inteiras, aumentando a precisão e a eficiência.
Melhorias na performance
Para otimizar o desempenho, a nova versão incorpora o uso de instruções SIMD, como AVX2, AVX512F, NEON, e SSE4.1. Além disso, o suporte a extensões vetoriais RISC-V V foi adicionado, permitindo a criação de otimizações específicas para processadores RISC-V, cada vez mais populares no mercado.
Outros aprimoramentos incluem:
- Modificações no formato hOCR: o Tesseract agora define automaticamente os parâmetros
ocrp_dir
eocrp_lang
, garantindo melhor usabilidade no formato HTML. - Otimizações na biblioteca de modelos de idiomas: melhorias na identificação das modelos disponíveis tornam a seleção de idiomas mais rápida e precisa.
- Compatibilidade com Windows: aprimoramentos no instalador facilitam a configuração e evitam a necessidade de conversão de nomes de arquivos.
- Novas opções de configuração: agora, é possível definir valores simbólicos para as opções
--oem
e--psm
, simplificando a personalização do processo de OCR. - Substituição de Tensorflow: o suporte ao Tensorflow, que nunca foi utilizado efetivamente, foi removido para simplificar o código e melhorar o desempenho.
- Atualização de submódulos: o submódulo googletest foi atualizado para a versão 1.15.2, aprimorando a qualidade e confiabilidade dos testes de software.
Principais mudanças no código e melhorias técnicas
Essa versão também conta com melhorias no código-fonte. Funções como access
e _access
foram substituídas por std::filesystem::exists()
, visando uma abordagem mais moderna e eficiente de verificação de arquivos. A substituição de tprintf
pelo fluxo de mensagens tesserr
aprimora o código e elimina alguns avisos para compiladores do Windows. Além disso, o uso regular de CMAKE_INSTALL_LIBDIR
e GNUInstallDirs
permite uma melhor organização e compatibilidade durante a instalação do Tesseract em diferentes ambientes.
Essas melhorias fortalecem o Tesseract como uma solução de OCR versátil e de alto desempenho, atraindo tanto desenvolvedores que buscam uma solução para integrar em suas aplicações quanto usuários que necessitam de uma ferramenta robusta e prática para digitalização e reconhecimento de textos.
Com a versão 5.5.0, o Tesseract amplia suas capacidades de reconhecimento de texto, tornando-se ainda mais competitivo e abrangente no mundo do OCR. Para usuários que necessitam de uma ferramenta flexível e com excelente suporte a diversos idiomas, o Tesseract continua sendo uma excelente escolha. Explore essa atualização e acesse a página oficial de lançamentos do Tesseract para obter mais detalhes ou baixar a nova versão.