O processamento de linguagem natural (PNL) é um conjunto de técnicas para usar computadores para detectar na linguagem humana os tipos de coisas que os humanos detectam automaticamente. Conheça 10 aplicativos de processamento de linguagem natural Java gratuitas e de código aberto para o seu Linux!
Processamento de Linguagem Natural (PNL)
A PNL é um campo interessante da ciência da computação, da inteligência artificial e da linguística computacional que se preocupa com as interações entre computadores e linguagens humanas (naturais). Inclui tokenização de palavras e frases, classificação de texto e análise de sentimento, correção ortográfica, extração de informações, análise, extração de significado e resposta a perguntas.
Mesmo em anos de formação, dominamos os fundamentos da linguagem falada e escrita. No entanto, a grande maioria de nós não ultrapassa algumas regras básicas de processamento quando aprendemos como lidar com texto em nossos aplicativos.
Todavia, o software não estruturado compreende a maioria dos dados que vemos. A PNL é a tecnologia para lidar com nosso produto onipresente: a linguagem humana, tal como aparece nas mídias sociais, e-mails, páginas da web, tweets, descrições de produtos, histórias de jornais e artigos científicos, em milhares de idiomas e variantes.
Linguagem Java
Muitos desafios na PNL envolvem a compreensão da linguagem natural. Java é uma das linguagens de programação mais utilizadas devido parte de sua popularidade ao seu extenso ecossistema. A programação em Java fornece acesso a esse ecossistema que consiste em diversas bibliotecas, frameworks e APIs.
Java executa Python e R de perto quando se trata de PNL. Abaixo, você tem acesso a uma lista de 10 aplicativos elaborada pelo Linux Links. Somente software gratuito e de código aberto é elegível para inclusão.
Vamos explorar as ferramentas de PNL baseadas em Java disponíveis.
Ferramentas de processamento de linguagem natural Java
- CorePNL: Pipeline de PNL baseado em anotações que fornece análise básica de linguagem natural;
- OpenNLP: Kit de ferramentas baseado em aprendizado de máquina;
- Lucene: Biblioteca de software de recuperação de informações completa e de alto desempenho;
- UIMA: Implementação de código aberto da especificação UIMA;
- GATE: Solução de ciclo de vida completo para uma ampla gama de tarefas de PNL;
- MALLET: Processamento estatístico de linguagem natural, classificação de documentos e muito mais;
- ReVerb: Identifica e extrai automaticamente relações binárias de frases;
- CogComp-PNL: Ferramentas de processamento de linguagem natural (PNL) de última geração;
- Tika: Kit de ferramentas de análise de conteúdo;
- PNL4J: Estrutura de PNL para linguagens JVM.