Um caso inusitado pegou de surpresa os clientes e a própria empresa Microsoft Azure. O serviço de manutenção da empresa promete assistência técnica em até 10 minutos mas demorou mais de cinco horas. Os problemas afetavam os clientes europeus no final de março. A tarefa de informar os clientes dependia de um gerente de incidentes com sede nos EUA, que estava dormindo na época.
Os atrasos afetaram os clientes na Europa e no Reino Unido por três dias, começando às 9h UTC do dia 24 de março. No entanto, no início, quando os clientes enfrentavam problemas com serviços do Azure extremamente lentos, a Microsoft descumpriu com folga a meta de 10 minutos para reconhecer problemas.
Gerente dorme e atrasa reparos no Microsoft Azure
Em um post mortem, Chad Kimes, diretor de engenharia da Azure, admite “a comunicação da Microsoft durante esse incidente também foi problemática” e pediu desculpas pela frustração e confusão que isso causou aos 6.136 clientes afetados.
O problema técnico em si foi causado por restrições de capacidade da máquina virtual devido a um aumento na demanda por recursos de computação do Azure durante a pandemia de coronavírus COVID-19, que resultou em atrasos de 21 minutos que afetam o serviço Pipelines DevOps da Microsoft para liberar novas compilações direcionadas aos agentes Windows e Linux no Azure. O atraso mais longo foi de nove horas, segundo Kimes.
O problema aqui é que nossos processos de site ao vivo têm uma lacuna para esse tipo de incidente, disse Kimes sobre o problema de comunicação.
Quando os incidentes envolvem falhas de solicitação do cliente ou impactos no desempenho, temos ferramentas automatizadas que iniciam um incidente e fazem loops tanto em um DRI (indivíduo responsável) como no que chamamos de PIM (gerente de incidente primário). O PIM normalmente é a pessoa responsável por postar comunicações externas reconhecendo o incidente, acrescenta.
Atrasos no pipeline são detectados por ferramentas diferentes, e o PIM atualmente não é paginado para esses tipos de incidentes. Como resultado, enquanto o DRI estava trabalhando duro para entender os problemas técnicos e procurar possíveis mitigações, o PIM ainda estava dormindo. Somente quando o PIM entrou na solução de incidentes aproximadamente no início do horário comercial no leste dos Estados Unidos, o incidente foi finalmente reconhecido.
Solução do problema
A Microsoft diz que está planejando melhorar seus processos de atendimento imediato. Assim, espera “garantir que a comunicação inicial dos incidentes com atraso no pipeline ocorra no mesmo horário que outros tipos de incidentes”.
A empresa também está implementando alterações arquiteturais para mitigar gargalos na criação de novos agentes do pool de agentes hospedados.
O episódio reforça a velha máxima de sempre colocar a culpa de qualquer problema na equipe de TI?
ZDNet