Os Agentes de IA (Agentic AI) são a próxima fronteira: conectam LLMs a ferramentas reais — arquivos, internet, APIs — e começam a tomar ações por conta própria. Só que essa autonomia abre uma superfície de ataque gigante. Como testar, de forma objetiva, se um agente resiste a prompt injection, phishing, uso indevido de ferramentas ou negação de serviço? Até agora, construir um agente era como projetar um carro super-rápido sem pista de testes nem “crash test dummy”. A Check Point (via Lakera) e o AISI (Instituto de Segurança em IA do Reino Unido) dizem ter criado esse boneco de impacto: o Backbone Breaker Benchmark (b3) — um AI Agent security benchmark de open source voltado para segurança.
Construído a partir de um jogo de “hacking”
O gancho que torna o b3 diferente não é teórico, é empírico: ele é alimentado por 19.433 testes práticos de ataque, coletados do jogo de red teaming Gandalf: Agent Breaker, em que uma comunidade global vem tentando “quebrar” agentes em cenários realistas. Em vez de invocar apenas prompts artificiais, o benchmark destila o que funcionou de verdade contra agentes — desde vazamento de system prompts até injeção de links maliciosos. Em outras palavras, o b3 pega os golpes criados por humanos e transforma em uma suíte reprodutível de testes.
Threat snapshots: onde as falhas realmente nascem
O b3 introduz o conceito de threat snapshots: em vez de simular todo o fluxo complexo de um agente (orquestração, memória, ferramentas, contexto), ele mira momentos críticos em que vulnerabilidades costumam surgir — por exemplo, quando o LLM decide acionar uma ferramenta, interpretar um arquivo anexado ou seguir instruções em linguagem natural que parecem legítimas, mas não são. O resultado é um “crash test” mais focado e eficiente, que mede suscetibilidade a prompt injection, exfiltração de dados confidenciais, DoS, inserção de phishing e código malicioso, além de uso não autorizado de ferramentas.
O que o b3 já descobriu
A equipe avaliou 31 LLMs populares e os primeiros insights derrubam alguns mitos de mercado:
- Raciocínio > Tamanho. Capacidades de raciocínio mais fortes correlacionam com mais segurança; o número de parâmetros por si só não.
- Fechado vs. Aberto. Em média, modelos fechados ainda performam melhor em segurança que os open source — mas a diferença vem diminuindo com a evolução dos principais projetos abertos.
- Avaliar segurança como “primeira classe”. O estudo propõe tratar segurança como métrica-irmã de capacidade, colocando o b3 ao lado dos benchmarks tradicionais de qualidade/aptidão.
Por que isso importa? Porque muitos times estão trocando “tamanho do modelo” por “tamanho da ilusão”. Em agentes, o que mata é a cadeia de decisões: um único passo mal defendido abre a porta para danos reais — desde um e-mail de phishing enviado automaticamente a um cliente até a execução inadvertida de um script. O b3 ataca justamente esses gargalos.
Padrão aberto, com ambição industrial
O b3 nasce open source para incentivar replicação, auditoria e comparações justas entre fornecedores — um passo necessário se quisermos normas setoriais e orientações de órgãos como NIST/NSA/BSI desembocando em requisitos testáveis para Agentes de IA. Essa abertura também facilita que equipes de red/blue teaming adaptem os threat snapshots às suas próprias arquiteturas. E há um contexto estratégico: o lançamento do b3 acontece logo após a Check Point anunciar a aquisição da Lakera, um movimento que consolida a tese de segurança ponta-a-ponta para o ciclo de vida de IA — do dado ao agente.
Como aplicar (e por onde começar)
Se você está construindo agentes, trate o b3 como faria com testes de regressão de segurança:
- Execute os threat snapshots no seu LLM backbone atual para obter um baseline — e repita a cada mudança de modelo, fine-tuning ou guarda-chuvas de políticas.
- Mude uma peça por vez (modelo, policy, verificador de tool-use) e veja se o score melhora. A lógica é ciência aplicada: hipótese, experimento, evidência.
- Feche o laço com runtime: use as classes de ataques do b3 para alimentar detecções em produção (ex.: bloqueio/score de injeção de prompt, validação de saídas antes de tool-use, isolamento e timeouts para mitigar DoS).
- Documente trade-offs: desempenho, custo e segurança andam juntos — o b3 ajuda a tornar explícitas as escolhas.
No fim, o valor do b3 é menos “mais um benchmark” e mais um método: pegar ataques do mundo real, condensar em instantâneos de ameaça e medir, de forma comparável, quão bem seu LLM aguenta pancada quando vira Agente de IA. Porque, convenhamos, ninguém quer descobrir o ponto fraco do seu agente quando ele já está conectado ao ERP da empresa.

 
			 
		 
		 
		 
		 
		