Pesquisadores da Truffle Security identificaram 11.908 chaves de API e senhas válidas dentro do conjunto de dados do Common Crawl, utilizado por diversas empresas para treinar inteligências artificiais. A exposição de segredos digitais levanta preocupações sobre a segurança da informação em projetos de IA.
Descoberta expõe milhares de chaves de API em treinamento de IA
O que é o Common Crawl?
O Common Crawl é um vasto repositório de dados abertos, acumulando petabytes de informações da web desde 2008. Empresas como OpenAI, Google, Meta e Anthropic utilizam parte desse acervo para treinar modelos de linguagem. Entretanto, a presença de credenciais expostas nesse material demonstra fragilidades na segurança dos dados coletados.
Segredos digitais comprometidos
A investigação analisou 400 terabytes de dados e encontrou credenciais de serviços como Amazon Web Services (AWS), MailChimp e WalkScore. Entre os segredos mais comuns estavam chaves de API do MailChimp, com cerca de 1.500 credenciais descobertas em códigos HTML e JavaScript.
Essa exposição ocorre devido a práticas inadequadas de desenvolvimento, como o armazenamento de chaves diretamente no código-fonte, em vez de utilizá-las via variáveis de ambiente seguras.
Impactos e medidas preventivas
A divulgação dessas chaves pode permitir que invasores realizem ataques como phishing, roubo de identidade de marca e exfiltração de dados sensíveis. Além disso, a pesquisa identificou que 63% das chaves vazadas estavam presentes em múltiplas páginas, com um caso específico em que uma única chave do WalkScore foi encontrada mais de 57 mil vezes em quase 2 mil subdomínios.
Outro ponto preocupante foi a descoberta de páginas contendo webhooks do Slack, que deveriam ser mantidos em sigilo, pois permitem a publicação de mensagens na plataforma sem autenticação adicional.
Medidas corretivas e recomendações
A Truffle Security notificou os fornecedores impactados e colaborou para revogar milhares de chaves comprometidas. Essa situação reforça a necessidade de práticas seguras no desenvolvimento, incluindo:
- Utilização de variáveis de ambiente em vez de chaves embutidas no código;
- Revisão constante de segredos expostos com ferramentas de segurança;
- Treinamento de equipes para mitigar riscos de vazamento de credenciais.
A descoberta evidencia que modelos de IA podem ser treinados com dados inseguros, tornando fundamental a adoção de métodos rigorosos de segurança na coleta e processamento de informações.