Gerente dorme e atrasa reparos no Microsoft Azure

Um caso inusitado pegou de surpresa os clientes e a própria empresa Microsoft Azure. O serviço de manutenção da empresa promete assistência técnica em até 10 minutos mas demorou mais de cinco horas. Os problemas afetavam os clientes europeus no final de março. A tarefa de informar os clientes dependia de um gerente de incidentes com sede nos EUA, que estava dormindo na época.

Os atrasos afetaram os clientes na Europa e no Reino Unido por três dias, começando às 9h UTC do dia 24 de março. No entanto, no início, quando os clientes enfrentavam problemas com serviços do Azure extremamente lentos, a Microsoft descumpriu com folga a meta de 10 minutos para reconhecer problemas.

Gerente dorme e atrasa reparos no Microsoft Azure

Em um post mortem, Chad Kimes, diretor de engenharia da Azure, admite “a comunicação da Microsoft durante esse incidente também foi problemática” e pediu desculpas pela frustração e confusão que isso causou aos 6.136 clientes afetados.

O problema técnico em si foi causado por restrições de capacidade da máquina virtual devido a um aumento na demanda por recursos de computação do Azure durante a pandemia de coronavírus COVID-19, que resultou em atrasos de 21 minutos que afetam o serviço Pipelines DevOps da Microsoft para liberar novas compilações direcionadas aos agentes Windows e Linux no Azure. O atraso mais longo foi de nove horas, segundo Kimes. 

O problema aqui é que nossos processos de site ao vivo têm uma lacuna para esse tipo de incidente, disse Kimes sobre o problema de comunicação.

Quando os incidentes envolvem falhas de solicitação do cliente ou impactos no desempenho, temos ferramentas automatizadas que iniciam um incidente e fazem loops tanto em um DRI (indivíduo responsável) como no que chamamos de PIM (gerente de incidente primário). O PIM normalmente é a pessoa responsável por postar comunicações externas reconhecendo o incidente, acrescenta. 

Atrasos no pipeline são detectados por ferramentas diferentes, e o PIM atualmente não é paginado para esses tipos de incidentes. Como resultado, enquanto o DRI estava trabalhando duro para entender os problemas técnicos e procurar possíveis mitigações, o PIM ainda estava dormindo. Somente quando o PIM entrou na solução de incidentes aproximadamente no início do horário comercial no leste dos Estados Unidos, o incidente foi finalmente reconhecido.

Solução do problema

A Microsoft diz que está planejando melhorar seus processos de atendimento imediato. Assim, espera “garantir que a comunicação inicial dos incidentes com atraso no pipeline ocorra no mesmo horário que outros tipos de incidentes”.

A empresa também está implementando alterações arquiteturais para mitigar gargalos na criação de novos agentes do pool de agentes hospedados.

O episódio reforça a velha máxima de sempre colocar a culpa de qualquer problema na equipe de TI?

ZDNet

 

Share This Article
Follow:
Jornalista com pós graduações em Economia, Jornalismo Digital e Radiodifusão. Nas horas não muito vagas, professor, fotógrafo, apaixonado por rádio e natureza.
Sair da versão mobile