Computadores desatualizados e sobrecarregados prejudicam missões NASA. Segundo especialistas, o potencial da supercomputação da NASA caiu muito e já compromete projetos importantes. Esses aparelhos não estão acompanhando os mais recentes desenvolvimentos tecnológicos e estão “sobrecarregados”, causando atrasos em missões que às vezes são solucionados por equipes que adquirem sua própria infraestrutura.
As conclusões acima são algumas das conclusões de uma avaliação das capacidades de computação de ponta da agência aeroespacial, conduzida pelo auditor interno da NASA, o Escritório do Inspetor Geral.
Publicada na quinta-feira, a auditoria começa declarando que “a NASA precisa de um compromisso renovado e atenção de liderança sustentada para revigorar seus esforços de HEC [computação de ponta]. Sem mudanças importantes, o CES da Agência provavelmente restringirá as prioridades e metas futuras da missão.”
Essas mudanças são necessárias porque as operações HEC da NASA – um termo que a auditoria usa de forma intercambiável com a supercomputação – são gerenciadas por seu Programa de Pesquisa em Ciências da Terra dentro da Diretoria de Missão Científica, e não como uma função central.
O CIO da NASA tem alguma supervisão do HEC, mas não está diretamente envolvido nas atividades ou governança do HEC.
Como os supers da agência estão com excesso de assinaturas, as missões compram seu próprio kit. A auditoria sugere que quase todos os locais da NASA – exceto o Goddard Space Flight Center e o Stennis Space Center – têm sua própria infraestrutura independente. Só a equipe do Sistema de Lançamento Espacial gasta US$ 250.000 por ano, em vez de esperar pelo acesso à disponibilidade de recursos HEC existente.
Computadores desatualizados e sobrecarregados prejudicam missões NASA
A confusão em torno da capacidade e da política de nuvem da NASA é outro motivo para a compra do kit local.
“A NASA também carece de uma estratégia abrangente para quando usar ativos HEC nas instalações versus quando utilizar opções de computação em nuvem – ou uma compreensão generalizada das implicações de custo para cada escolha”, afirma a auditoria. “As partes interessadas nos disseram que, embora saibam que a NASA tem opções de computação em nuvem HEC, estavam hesitantes em usá-las devido a práticas de agendamento desconhecidas ou assumiram custos mais altos.”
A frota díspar de HEC implantada na NASA também carece de forte segurança, segundo a auditoria. Alguns não são monitorados regularmente – um grande problema, porque alguns são acessíveis por cidadãos estrangeiros com quem a NASA colabora.
“Os controles de segurança muitas vezes são ignorados ou não implementados, aumentando o risco de ataques cibernéticos”, alerta o relatório.
Outra questão apontada pela auditoria é que a Nasa não está acompanhando o ritmo da tecnologia moderna de supercomputação.
A instalação de Supercomputação Avançada da NASA, por exemplo, tem apenas 48 GPUs ao lado de suas 18.000 CPUs.
“Os funcionários do HEC levantaram várias preocupações em relação a essa observação, afirmando que a incapacidade de modernizar os sistemas da NASA pode ser atribuída a vários fatores, como preocupações com a cadeia de suprimentos, requisitos de linguagem de computação moderna (codificação) e a escassez de pessoal qualificado necessário para implementar as novas tecnologias”, de acordo com o relatório.
Auditoria
A auditoria, portanto, faz dez recomendações, a primeira das quais é para que a liderança sênior reforme a forma como a supercomputação é administrada e implantada na NASA.
As outras nove recomendações são ações que o auditor acha que devem ser realizadas por uma “equipe de tigres” dedicada a corrigir problemas conhecidos em todo o estado HEC da NASA. Entre os trabalhos que a equipe precisa enfrentar estão:
- Identificar lacunas tecnológicas, como transição de GPU e modernização de código, essenciais para atender às necessidades atuais e futuras e requisitos tecnológicos e científicos estratégicos;
- Desenvolver uma estratégia para melhorar as alocações de ativos HEC e priorização para uso, incluindo o uso apropriado de recursos locais versus recursos em nuvem;
- Avalie os riscos cibernéticos associados aos ativos HEC para determinar os requisitos de supervisão e monitoramento, estabelecer apetite ao risco e abordar deficiências de controle. Considere usar a plataforma corporativa Splunk da NASA como um recurso compartilhado;
- Desenvolver um inventário de ativos HEC em toda a empresa e formalizar procedimentos para o gerenciamento do ciclo de vida de hardware e software.
Separar a segurança é outro item na lista de tarefas da equipe do tigre.
A direção da NASA concordou em implementar a equipe do tigre e concordou com a recomendação de reformar todo o seu aparato de gerenciamento de supercomputação.