
A Cloudflare enfrentou uma interrupção significativa em seu serviço de armazenamento de objetos R2 devido a um erro na rotação de credenciais. O problema afetou operações de gravação e leitura globalmente por 1 hora e 7 minutos.
Falha no Cloudflare R2: erro na rotação de senha causou interrupção global
Entre 21:38 UTC e 22:45 UTC, o serviço Cloudflare R2 apresentou falhas de 100% nas gravações e 35% nas leituras. O incidente ocorreu porque as novas credenciais de autenticação foram aplicadas erroneamente em um ambiente de desenvolvimento em vez de produção. Quando as credenciais antigas foram removidas, o R2 Gateway perdeu o acesso ao armazenamento backend.
A causa primária do problema foi a omissão do comando ‘–env production’ durante a implantação, resultando na configuração incorreta do R2 Gateway Worker.
Impacto nos serviços
Apesar de não haver perda de dados, vários serviços da Cloudflare sofreram degradação:
- R2: falhas de gravação (100%) e leitura (35%)
- Reserva de cache: aumento no tráfego de origem devido a leituras com falha
- Imagens e Stream: falha em todos os uploads, com redução de 25% na entrega de imagens e 94% no Stream
- Outros serviços: degradação parcial em segurança de e-mail, Vectorize, Log Delivery, faturamento e auditoria de transparência de chaves
Medidas preventivas
Para evitar futuras interrupções, a Cloudflare implementou melhorias no registro e na verificação de credenciais. Agora, todas as implantações exigem ferramentas automatizadas para minimizar erros humanos.
Outras mudanças incluem:
- Validação dupla para a rotação de credenciais
- Procedimentos operacionais aprimorados para detecção mais rápida de falhas
- Maior controle de acesso e aprovação bipartidária para ações de alto risco
Essa não foi a primeira falha do serviço R2. Em fevereiro, um erro humano resultou em uma interrupção similar, reforçando a necessidade de salvaguardas mais robustas.
Conclusão
A Cloudflare segue aprimorando seus processos para evitar falhas futuras e garantir maior confiabilidade em seus serviços. Incidentes como esse destacam a importância de boas práticas de gestão de credenciais e automação de processos críticos.