Quase 12 mil chaves de API expostas em conjunto de treinamento de IA

Pesquisadores da Truffle Security identificaram 11.908 chaves de API e senhas válidas dentro do conjunto de dados do Common Crawl, utilizado por diversas empresas para treinar inteligências artificiais. A exposição de segredos digitais levanta preocupações sobre a segurança da informação em projetos de IA.

Conteúdo

Descoberta expõe milhares de chaves de API em treinamento de IA

Malware se disfarça de atualização Flash para minar criptomoedas

O que é o Common Crawl?

O Common Crawl é um vasto repositório de dados abertos, acumulando petabytes de informações da web desde 2008. Empresas como OpenAI, Google, Meta e Anthropic utilizam parte desse acervo para treinar modelos de linguagem. Entretanto, a presença de credenciais expostas nesse material demonstra fragilidades na segurança dos dados coletados.

Segredos digitais comprometidos

A investigação analisou 400 terabytes de dados e encontrou credenciais de serviços como Amazon Web Services (AWS), MailChimp e WalkScore. Entre os segredos mais comuns estavam chaves de API do MailChimp, com cerca de 1.500 credenciais descobertas em códigos HTML e JavaScript.

Essa exposição ocorre devido a práticas inadequadas de desenvolvimento, como o armazenamento de chaves diretamente no código-fonte, em vez de utilizá-las via variáveis de ambiente seguras.

Impactos e medidas preventivas

A divulgação dessas chaves pode permitir que invasores realizem ataques como phishing, roubo de identidade de marca e exfiltração de dados sensíveis. Além disso, a pesquisa identificou que 63% das chaves vazadas estavam presentes em múltiplas páginas, com um caso específico em que uma única chave do WalkScore foi encontrada mais de 57 mil vezes em quase 2 mil subdomínios.

Outro ponto preocupante foi a descoberta de páginas contendo webhooks do Slack, que deveriam ser mantidos em sigilo, pois permitem a publicação de mensagens na plataforma sem autenticação adicional.

Medidas corretivas e recomendações

A Truffle Security notificou os fornecedores impactados e colaborou para revogar milhares de chaves comprometidas. Essa situação reforça a necessidade de práticas seguras no desenvolvimento, incluindo:

Utilização de variáveis de ambiente em vez de chaves embutidas no código;
Revisão constante de segredos expostos com ferramentas de segurança;
Treinamento de equipes para mitigar riscos de vazamento de credenciais.

A descoberta evidencia que modelos de IA podem ser treinados com dados inseguros, tornando fundamental a adoção de métodos rigorosos de segurança na coleta e processamento de informações.

Quase 12 mil chaves de API expostas em conjunto de treinamento de IA

Descoberta expõe milhares de chaves de API em treinamento de IA

O que é o Common Crawl?

Segredos digitais comprometidos

Impactos e medidas preventivas

Medidas corretivas e recomendações

Uma nova logo para os 40 anos da Free Software Foundation

Leia também

Galaxy Z Fold7 é certificado com Qi 2.1, mas limitações decepcionam

Apple domina ranking do AnTuTu com iPads; iPhones ficam de fora

WhatsApp encerra suporte a iPhones com iOS abaixo de 15.1

Ambient AOD no Android 16: Pixel pode exibir papel de parede na tela sempre ativa

Extra

Nossas redes