Falhas no Gmail e YouTube foi devido a um erro ‘zero’

Falhas no Gmail e YouTube foi devido a um erro 'zero'

Um simples erro de valor ‘zero’: segundo o Google, foi isto o que causou as recentes falhas no Gmail, Youtube, GSuíte e vários serviços da empresa. Segundo uma nota, isso estava por trás da falha de seu sistema de autenticação global que bloqueou o acesso aos serviços.

Um dia após o incidente, o Google disse em uma análise preliminar que a causa raiz era um problema em seu sistema de gerenciamento de cota de armazenamento automatizado. Isso reduziu a capacidade de seu sistema de gerenciamento de identidade central. Por outro lado, bloqueou o acesso de todos a muitos serviços do Google que exigem que os usuários façam login.

A interrupção durou apenas 50 minutos, no entanto, bloqueou o acesso ao Gmail e ao YouTube para bilhões de usuários em todo o mundo. O incidente também afetou empresas que dependem do Google Cloud Platform para recursos de computação.

Falhas no Gmail e YouTube foi devido a um erro ‘zero’

A imagem que os engenheiros do Google pintam em seu relatório completo de incidentes detalha um evento de curta duração, mas importante, em que tudo se resumiu a um erro ‘zero’ gerado pelo sistema de cota de armazenamento legacy que o Google usa para provisionar automaticamente o armazenamento para seu sistema de autenticação.

Como parte de uma migração em andamento do Serviço de Identificação de Usuário para um novo sistema de cotas, uma mudança ocorreu em outubro para registrar o Serviço de Identificação de Usuário com o novo sistema de cotas. Entretanto, partes do sistema de cotas anterior ficaram no local e tiveram relatos indevidos sobre o uso para o serviço de ID de usuário como 0, disse o relatório.

Assim, a cota para o banco de dados de contas reduziu, o que impediu o comando do Paxos de escrever. Pouco depois, a maioria das operações de leitura sofreu uma desatualização, o que resultou em erros nas pesquisas de autenticação.

As alterações

O Google diz que a interrupção resultou de alterações feitas no serviço de ID de usuário do Google em outubro. Isso como parte de uma migração para o novo sistema de cotas.

No centro da interrupção estava o serviço de ID de usuário do Google. Ele tem um identificador exclusivo para cada conta e gerencia as credenciais de autenticação para tokens e cookies OAuth. Os tokens OAuth servem para conectar pessoas a um serviço sem exigir que o usuário insira ou reinsira uma senha.

O Google armazena os dados dessa conta em um banco de dados em nuvem distribuído, que usa protocolos Paxos para coordenar as atualizações depois de concordar com os valores das informações necessárias para o processamento.

“Por motivos de segurança, este serviço rejeitará solicitações ao detectar dados desatualizados”, explica o Google. 

Um período de carência existente na aplicação de restrições de cota atrasou o impacto, que acabou expirando. Assim, acionou sistemas automatizados para diminuir a cota permitida para o serviço de ID de usuário e desencadeando este incidente. As verificações de segurança existentes existem para evitar muitas alterações não intencionais de cota.

Impacto

O Google também detalhou a extensão do impacto para os usuários do Google Cloud Storage, Google Cloud Network, Google Kubernetes Engine (GKE), Google Workspace (antigo G Suite) e suporte da nuvem do Google.

Na segunda-feira, 14 de dezembro de 2020, das 03:46 às 04:33 EUA/Pacífico, a emissão de credenciais e as pesquisas de metadados da conta para todas as contas de usuário do Google falharam. Como resultado, não foi possível verificar se as solicitações do usuário foram autenticadas e veicularam erros 5xx em praticamente todo o tráfego autenticado, afirma o Google no relatório do incidente de componentes de infraestrutura do Google Cloud de 20013 . 

O Google confirmou que “todos os aplicativos autenticados do Google Workspace ficaram inativos durante o incidente” e que cerca de “4% das solicitações para a API do plano de controle do GKE falharam. Além disso, quase todas as cargas de trabalho gerenciadas pelo Google e do cliente não puderam relatar as métricas ao Cloud Monitoring.”

A maioria dos serviços autenticados do Google apresentou “taxas de erro elevadas em todas as APIs e consoles do Google Cloud Platform e Google Workspace”.

Enquanto a maioria dos serviços se recuperou rapidamente e automaticamente, alguns serviços tiveram um “impacto único ou persistente”, disse o Google.  

O Google observou em sua análise de causa raiz que “todos os serviços que exigem login por meio de uma conta do Google foram afetados com impactos variáveis”.

ZDNet

Sair da versão mobile