A Meta criou um recurso de aprendizado de máquina que poderia um dia superar a Wikipedia como o maior banco de dados de verificação de conhecimento disponível publicamente do mundo.
Apelidado de Sphere, ele pode ser usado para executar processamento de linguagem natural com uso intensivo de conhecimento, ou KI-NLP, nos disseram. Em termos práticos, isso significa que ele pode ser usado para responder a perguntas complicadas usando linguagem natural e encontrar fontes para reivindicações.
Um exemplo dado de seu uso é perguntar a Sphere: “Quem é Joëlle Sambi Nzeba?” A Wikipedia não tem uma entrada para ela, mas Sphere disse que ela “nasceu na Bélgica e cresceu parcialmente em Kinshasa (Congo). Ela atualmente mora em Bruxelas. Ela é escritora e slammer, ao lado de seu ativismo em um movimento feminista, ” e links para um site onde obtive essas informações sobre o trabalho dela.
A Wikipedia praticamente serviu como o corpus de registro, escreveram os cabeças de ovos da Meta em um artigo discutindo o design do Sphere, alegando que o uber-wiki mantido por voluntários é “preciso, bem estruturado e pequeno o suficiente para usar facilmente em ambientes de teste”.
Meta trabalha no sucessor da Wikipedia
Buscando construir algo maior e melhor do que a Wikipedia, porém, a Meta reuniu conteúdo de toda a web para formar uma “fonte de conhecimento universal, sem curadoria e não estruturada para várias tarefas KI-NLP de uma só vez”. O resultado é o Sphere, que pode ser consultado usando várias ferramentas.
A equipe acrescenta que o Sphere “pode igualar e superar as linhas de base baseadas na Wikipedia” em algumas tarefas usando o benchmark KILT AI. Ou seja, o Sphere tem um desempenho melhor do que os sistemas de IA construídos com base no conteúdo da Wikipedia.
O objetivo principal do Sphere era ver o impacto que a substituição da Wikipedia, como fonte, teve no desempenho de sistemas intensivos em conhecimento e, embora a equipe tenha relatado que o Sphere teve alguns problemas, seu desempenho indica que, no mínimo, pode agregar valor às tarefas de KI-NLP além do que os corpora da Wikipedia podem oferecer.
Os pesquisadores por trás do Sphere afirmam que seu trabalho marca “a primeira vez que um índice de pesquisa de propósito geral melhora os modelos de linguagem em tarefas de senso comum”.
Outros tipos de IA da Meta
O Sphere não é a única plataforma de IA que a Meta lançou no GitHub: na semana passada, lançou o NLLB-200, a primeira IA de tradução a ultrapassar o limite de 200 idiomas, ou assim afirmou o pai do Facebook. Assim como o Sphere, o NLLB-200 foi colocado em uso na Wikipedia; o primeiro sistema para verificação automática de citações em artigos editados e o segundo para melhorar a tradução de páginas em idiomas menos falados.
Sphere vai além de corpora web semelhantes em termos de escala, consistindo em 906 milhões de passagens e 134 milhões de documentos. O segundo maior em termos de passagens/documentos é o gerador de Diálogo Aumentado da Internet, que extrai dados de 250 milhões de passagens e 109 milhões de documentos.
Mas a internet não contém controles de qualidade ou precisão, o que os pesquisadores admitem ser um problema-chave para realmente implantar essa coisa. “Usar a Wikipedia como fonte de conhecimento permite que os pesquisadores assumam a alta qualidade dos documentos do corpus. Ao fazer a transição para um corpus da web, não temos mais a certeza de que qualquer documento é bom, verdadeiro ou único”, escreveram os pesquisadores.
Mais qualidade das informações?
Os criadores do Sphere acham que os esforços devem se concentrar na avaliação da qualidade dos dados recuperados, na detecção de alegações falsas e contradições, na determinação de como priorizar fontes confiáveis e quando decidir não responder a uma pergunta devido à falta de informações. Você sabe, tornando-o realmente útil.
Se conseguir transformar com sucesso o Sphere em uma IA de caixa branca com informações confiáveis e confiáveis, disse Meta, o Sphere “pode ser a próxima grande chance da PNL”.