Falha crítica

Cloudflare R2: erro na rotação de credenciais causou falha global

O Cloudflare R2 sofreu uma interrupção global de 1 hora e 7 minutos devido a um erro na rotação de credenciais. A falha impactou gravação e leitura, afetando serviços dependentes. A Cloudflare implementou medidas para evitar novos incidentes.

cloudflare-diz-que-recente-interrupcao-esta-ligada-ao-incidente-de-sequestro-de-bgp

A Cloudflare enfrentou uma interrupção significativa em seu serviço de armazenamento de objetos R2 devido a um erro na rotação de credenciais. O problema afetou operações de gravação e leitura globalmente por 1 hora e 7 minutos.

Falha no Cloudflare R2: erro na rotação de senha causou interrupção global

Entre 21:38 UTC e 22:45 UTC, o serviço Cloudflare R2 apresentou falhas de 100% nas gravações e 35% nas leituras. O incidente ocorreu porque as novas credenciais de autenticação foram aplicadas erroneamente em um ambiente de desenvolvimento em vez de produção. Quando as credenciais antigas foram removidas, o R2 Gateway perdeu o acesso ao armazenamento backend.

A causa primária do problema foi a omissão do comando ‘–env production’ durante a implantação, resultando na configuração incorreta do R2 Gateway Worker.

Cloudflare diz que Golang PGO proporciona economia significativa de CPU

Impacto nos serviços

Apesar de não haver perda de dados, vários serviços da Cloudflare sofreram degradação:

  • R2: falhas de gravação (100%) e leitura (35%)
  • Reserva de cache: aumento no tráfego de origem devido a leituras com falha
  • Imagens e Stream: falha em todos os uploads, com redução de 25% na entrega de imagens e 94% no Stream
  • Outros serviços: degradação parcial em segurança de e-mail, Vectorize, Log Delivery, faturamento e auditoria de transparência de chaves

Medidas preventivas

Para evitar futuras interrupções, a Cloudflare implementou melhorias no registro e na verificação de credenciais. Agora, todas as implantações exigem ferramentas automatizadas para minimizar erros humanos.

Outras mudanças incluem:

  • Validação dupla para a rotação de credenciais
  • Procedimentos operacionais aprimorados para detecção mais rápida de falhas
  • Maior controle de acesso e aprovação bipartidária para ações de alto risco

Essa não foi a primeira falha do serviço R2. Em fevereiro, um erro humano resultou em uma interrupção similar, reforçando a necessidade de salvaguardas mais robustas.

Conclusão

A Cloudflare segue aprimorando seus processos para evitar falhas futuras e garantir maior confiabilidade em seus serviços. Incidentes como esse destacam a importância de boas práticas de gestão de credenciais e automação de processos críticos.