Vazamento de dados

Quase 12 mil chaves de API expostas em conjunto de treinamento de IA

Uma pesquisa revelou que quase 12 mil chaves de API e senhas foram encontradas no conjunto de dados Common Crawl, amplamente utilizado para treinar inteligências artificiais. O estudo alerta para riscos de segurança e vazamento de informações sensíveis.

malware IA

Pesquisadores da Truffle Security identificaram 11.908 chaves de API e senhas válidas dentro do conjunto de dados do Common Crawl, utilizado por diversas empresas para treinar inteligências artificiais. A exposição de segredos digitais levanta preocupações sobre a segurança da informação em projetos de IA.

Descoberta expõe milhares de chaves de API em treinamento de IA

Malware se disfarça de atualização Flash para minar criptomoedas

O que é o Common Crawl?

O Common Crawl é um vasto repositório de dados abertos, acumulando petabytes de informações da web desde 2008. Empresas como OpenAI, Google, Meta e Anthropic utilizam parte desse acervo para treinar modelos de linguagem. Entretanto, a presença de credenciais expostas nesse material demonstra fragilidades na segurança dos dados coletados.

Segredos digitais comprometidos

A investigação analisou 400 terabytes de dados e encontrou credenciais de serviços como Amazon Web Services (AWS), MailChimp e WalkScore. Entre os segredos mais comuns estavam chaves de API do MailChimp, com cerca de 1.500 credenciais descobertas em códigos HTML e JavaScript.

Essa exposição ocorre devido a práticas inadequadas de desenvolvimento, como o armazenamento de chaves diretamente no código-fonte, em vez de utilizá-las via variáveis de ambiente seguras.

Impactos e medidas preventivas

A divulgação dessas chaves pode permitir que invasores realizem ataques como phishing, roubo de identidade de marca e exfiltração de dados sensíveis. Além disso, a pesquisa identificou que 63% das chaves vazadas estavam presentes em múltiplas páginas, com um caso específico em que uma única chave do WalkScore foi encontrada mais de 57 mil vezes em quase 2 mil subdomínios.

Outro ponto preocupante foi a descoberta de páginas contendo webhooks do Slack, que deveriam ser mantidos em sigilo, pois permitem a publicação de mensagens na plataforma sem autenticação adicional.

Medidas corretivas e recomendações

A Truffle Security notificou os fornecedores impactados e colaborou para revogar milhares de chaves comprometidas. Essa situação reforça a necessidade de práticas seguras no desenvolvimento, incluindo:

  • Utilização de variáveis de ambiente em vez de chaves embutidas no código;
  • Revisão constante de segredos expostos com ferramentas de segurança;
  • Treinamento de equipes para mitigar riscos de vazamento de credenciais.

A descoberta evidencia que modelos de IA podem ser treinados com dados inseguros, tornando fundamental a adoção de métodos rigorosos de segurança na coleta e processamento de informações.