Este é o primeiro de dois artigos, em que eu exploro o AIOps em Telecom. Nesta primeira parte entenderemos a razão pela qual o AIOps é tão importante para as futuras operações em Telecom, além de esclarecer algumas confusões relacionados aos termos: Análise de Dados, Automação, Inteligência Artificial (AI – Artificial Intelligence) e Aprendizagem de Máquina (ML- Machine Learning).
Na segunda parte, abordaremos como e onde o AIOps pode ser aplicado para melhorar a qualidade e a velocidade das operações, os benefícios, os desafios e as estratégias para sua adoção.
Por que AIOps?
Em um mercado altamente competitivo como o de Telecom, a qualidade do serviço e do atendimento oferecido ao cliente é um diferencial crítico.
As expectativas dos clientes com os serviços de Telecom estão cada vez mais altas e eles já não aceitam mais serviços com baixo desempenho, com problemas de disponibilidade ou com respostas demoradas no atendimento das solicitações de novas funções ou na resolução de problemas.
Atender a esses altos níveis de expectativa já tem sido bastante desafiador, mas se tornará aindamais com o advento do 5G!
Especialmente nesta indústria, para garantir essa qualidade na experiência do cliente e na detecção e resolução de problemas nos serviços ou na rede (da forma mais rápida possível), sempre se exigiu das empresas de Telecom consideráveis investimentos, tanto em termos de dinheiro como de tempo, para se criar, manter e gerir equipes de especialistas e implantar novas tecnologias e processos de operações para os diversos departamentos de TI & Rede envolvidos.
À medida que as redes de Telecom se tornam cada vez mais complexas, os sistemas e equipes de TI & Rede que as apoiam também evoluem para acomodar essas demandas futuras. Como os novos sistemas aumentam muito o volume e a velocidade em que as operações de TI e a Rede devem acontecer nos novos ambientes orientados e controlados por software, as empresas de Telecom também precisam garantir que suas equipes e operações se tornem cada vez mais rápidas, mais precisas e acima de tudo mais automatizadas para conseguir lidar com esses aumentos. Isso sem levar em conta a constante busca por redução de custos e tempo de implementação!
Para tentar atender a essas necessidades, as empresas já passaram por diferentes tipos de abordagens. Já tivemos sistemas de computação distribuídos; sistemas tolerantes a falhas, sistemas automatizados; agora, estamos nos movendo para os sistemas autônomos (sistemas inteligentes, sem supervisão).
Enquanto os conceitos e a visão de todas essas abordagens são praticamente os mesmos, o que sempre se desejou foi criar sistemas que pudessem ser capazes de algum grau de autogestão (de automações básicas até totalmente autônomos). Os mecanismos, os meios e a padronização necessária para se alcançar plenamente essa visão de autonomia está se consolidando somente agora com a chegada de novas tecnologias, tais como: computação em nuvem, arquiteturas de micro-serviços, desenvolvimento de software em contêineres, orquestração de contêineres, Funções de Rede Virtualizadas (VNF), Redes Definidas por Software (SDN) etc.
Essas ferramentas vieram para ajudar a automatizar a implantação, a orquestração e o redimensionamento de infraestrutura, aplicativos e serviços, e já estão nos entregando os níveis necessários de abstrações para podermos implantar os modelos de Operações de TI & Rede com autogestão.
Como a nossa era atual está direcionada por dados, que são gerados em alta velocidade, em grande volume e com alto grau de precisão nos diversos sistemas das empresas, encontrar os padrões nesses dados pode nos ajudar a gerir e ao mesmo automatizar e melhorar as Operações de TI & Rede ao usar novas tecnologias, tais como a AI/ML. Isso significa não apenas uma boa alternativa como também representa a melhor solução em termos de custo e
tempo, uma vez que os dados necessários já estão disponíveis para serem usados.
Nesse cenário, a área de Operações de TI & Rede das empresas de Telecom, que é um dos ambientes mais complexos da indústria, com múltiplas tecnologias de vários fornecedores e que tem de trabalhar em conjunto uns com os outros para atingir resultados específicos, é uma dessas áreas em que se fazem necessárias a modernização e a otimização, de forma urgente e mandatória, e é onde o AIOps entra em cena.
Hoje, a grande maioria das empresas de Telecom já reconhece que o AIOps é a única maneira de escalar as operações e torná-las suficientemente rápidas, responsivas e flexíveis para as grandes mudanças que ocorrem tanto nas redes como nos negócios de Telecom, à medida que a transformação digital progride. Mas o que é exatamente o AIOps?
O Gartner cunhou o termo AIOps em 2017, composto dos termos AI (Artificial Intelligence) e Ops (Operations).
De uma forma bem simplista, AIOps é a aplicação de inteligência artificial (AI/ML) para melhorar as operações de TI. Especificamente, o AIOps usa os grandes volumes de dados gerados pelos sistemas de monitoramento e de atendimento, utilizando a análise de dados e a aprendizagem de máquina (AI/ML) para fazer, entre outras coisas, o seguinte:
- Recolher e agregar os grandes volumes de dados de operações geradas por vários componentes de infraestrutura, aplicativos e ferramentas de monitoramento de desempenho dos diversos sistemas de TI/Rede;
- Filtrar inteligentemente os ‘sinais importantes’ do ‘ruído’ para aprender e posteriormente identificar os eventos e os padrões significativos relacionados aos problemas de desempenho e disponibilidade do sistema;
- Diagnosticar as causas raiz do problema e possíveis soluções e relatá-las para uma resposta rápida e/ou remediação, e em alguns casos já resolver automaticamente esses problemas, sem intervenção humana.
Ao agregar as informações das várias ferramentas manuais de operações de TI & Rede em uma única plataforma de operação inteligente, a evolução trazida pelo AIOps permite, em um primeiro momento, que as equipes de operações respondam mais rapidamente, com muito menos esforço e maior precisão, e que muitas vezes já em um segundo momento ajam até proativamente e autonomamente, ou seja, antes mesmo que o problema ocorra e sem intervenção humana, reduzindo, dessa forma, as quedas de performance e de interrupção do serviço antes que isso impacte a experiência do cliente. Isso atinge a visão de operações de TI & Rede autônomas, ou seja, autogerenciáveis, em que o sistema já irá realizar, por conta própria, as correções necessárias sem intervenção humana.
O AIOps cria, portanto, uma ponte entre o ambiente cada vez mais diversificado, dinâmico e difícil de gerir/monitorar de TI & Rede, e a expectativa dos usuários está cada vez mais alta no que diz respeito à disponibilidade dos serviços.
Explicando: Análise de Dados, Automação, Inteligência Artificial (AI) e Aprendizagem de Máquina (ML)
Há uma considerável confusão dentro e fora das telecomunicações sobre os termos Análise de Dados, Automação, AI e ML e em como essas tecnologias interagem.
Compreender, por exemplo, que AIOps não é simplesmente uma “análise de dados + automação”, bem como por que todas essas tecnologias são essenciais para as futuras operações em Telecom, é um bom começo na jornada para colher os benefícios prometidos pelo AIOps.
Vejamos, então:
Analytics – Monitorar dados procurando por padrões e anomalias predefinidos (sem aplicar inteligência) e aplicar essa análise na tomada de decisão das ações;
Automação – Automação de processos repetitivos que já foram previamente realizados por usuários, ou seja, predefinidos;
AI (Inteligência Artificial) – Sistemas de computador capazes de executar tarefas que normalmente exigem inteligência/decisão humana;
Ml (Aprendizagem de Máquina) – um tipo de AI que dá às máquinas a capacidade de aprender e automaticamente melhorar a experiência, sem que isso seja explicitamente programado.
O termo ‘AIOps’ é frequente e erroneamente entendido como “aplicação das análises dos dados operacionais para otimização do processo operacional, mas o uso da análise de dados por si só não envolve necessariamente AI e, de fato, em muitos aspectos este é exatamente o coração da questão em relação às operações.
Claro que a análise de dados por si só já pode contribuir substancialmente para uma melhor tomada de decisões, mas, nesse modelo, encontrar os padrões a serem monitorados e tomar as decisões em relação a tais dados devem ser atividades sempre feitas pelos seres humanos.
Se um sistema se utiliza da análise de dados para apenas monitorar os dados gerados à procura de padrões e anomalias pré-definido(a)s sem aplicar inteligência – isto é, sem entender e ao mesmo tempo evoluir com o que ele monitora, sem chegar a conclusões mais avançadas usando o que ele “aprendeu” e / ou sugerir soluções e possivelmente tomar decisões por conta própria, isso não é AI, é simplesmente análise de dados aplicada.
Em um ambiente que realmente use AI/ML, o sistema irá no mínimo processar os dados históricos para aprender sobre o comportamento do sistema e posteriormente com base no que já “aprendeu” (ML) analisar os novos dados recebidos para encontrar as discrepâncias, consolidar a informação e enviar automaticamente os alertas e as soluções recomendadas para as equipes apropriadas, até mesmo criando times para resposta com base na natureza do problema e da solução; em uma forma mais avançada, o sistema já poderia até acionar as respostas automáticas em tempo real, muitas vezes antes mesmo do problema ocorrer, e que os usuários sequer saibam que o problema poderia acontecer.
Observe que um dos grandes diferenciais aqui é que não foi necessário se prédefinir os parâmetros do sistema a se monitorar, mas apenas fornecer os dados de operação dos sistemas para que a máquina aprendesse o que é um estado normal!
Da mesma forma, os termos Inteligência Artificial e Automação são frequentemente usados de forma intercambiável, o que é, mais uma vez, enganoso. Uma automação também pode ou não pode ser baseada na Inteligência Artificial. Existem grandes diferenças entre o nível de complexidade de ambos os sistemas.
Automação é basicamente fazer um hardware ou software ser capaz de executar atividades predefinidas de forma automática, isto é, sem intervenção humana.
Nas empresas de Telecom, a automação de processos tem sido, em geral, realizada usando ferramentas de RPA (Robotic Process Automation) ou de “scripting”, que permitem que os usuários configurem facilmente robôs ou scripts para executar as tarefas repetitivas baseadas em atividades predefinidas, tais como acessar programas e sistemas, realizar entradas de dados básicos, executar cálculos, criação de relatórios etc. Isso tem sido particularmente muito útil para os processos que possuem interações previsíveis e frequentes e com baixo volume de dados, tendo reduzido drasticamente o custo e o tempo em operações.
Mas quando uma ferramenta de automação é combinada com uma de Workflow/BPM, com a AI/ML e com o grande volume de dados gerados pelos sistemas de TI e Rede, o resultado é conhecido como Automação de Processo Inteligente (IPA – Intelligent Process Automation). O IPA permite colher os benefícios da automação – velocidade, eficiência, poupança de tempo e capacidade de escala – com os insights trazidos pelo processamento dos dados, pela flexibilidade e poder de aprendizagem e pela capacidade de decisão da AI/ML. A aprendizagem de máquina (ML ) aprenderá constantemente com os dados recebidos e irá ajustar a forma de executar as tarefas, sempre buscando uma melhora do processo, sem precisar de codificação específica para essas alterações.
Assim, para atender o objetivo de escalar as suas operações de TI & Rede, as empresas precisam aplicar AI/ML em conjunto com a automação para cobrir todos os cenários existentes numa empresa de Telecom, das automações simples com baixo volume de dados até as automações autogerenciáveis, com grandes volumes de dados.
O ML e os outros tipos de AI que estão sendo desenvolvidos apresentam uma abordagem alternativa e moderna para a simples automação estática baseada em regras porque reduzem massivamente o esforço humano e o custo necessário para se atualizar ou criar melhores regras ao longo do tempo (necessárias) em um ambiente de TI e Rede em constante mudança.
Na segunda parte deste artigo, veremos como e onde aplicamos AIOps, os benefícios, os desafios e as estratégias para sua adoção.
Por Claudson Aguiar, Executivo de Desenvolvimento de Negócios e Projetos na IBM. Artigo escrito exclusivamente para o SempreUpdate.