Novo “crash test” para Agentes de IA: o benchmark b3 usa um “jogo de hacking” para expor falhas em LLMs

O “crash test” open source que mede a segurança real de agentes de IA.

Escrito por
Emanuel Negromonte
Emanuel Negromonte é Jornalista, Mestre em Tecnologia da Informação e atualmente cursa a segunda graduação em Engenharia de Software. Com 14 anos de experiência escrevendo sobre...

Os Agentes de IA (Agentic AI) são a próxima fronteira: conectam LLMs a ferramentas reais — arquivos, internet, APIs — e começam a tomar ações por conta própria. Só que essa autonomia abre uma superfície de ataque gigante. Como testar, de forma objetiva, se um agente resiste a prompt injection, phishing, uso indevido de ferramentas ou negação de serviço? Até agora, construir um agente era como projetar um carro super-rápido sem pista de testes nem “crash test dummy”. A Check Point (via Lakera) e o AISI (Instituto de Segurança em IA do Reino Unido) dizem ter criado esse boneco de impacto: o Backbone Breaker Benchmark (b3) — um AI Agent security benchmark de open source voltado para segurança.

Construído a partir de um jogo de “hacking”

O gancho que torna o b3 diferente não é teórico, é empírico: ele é alimentado por 19.433 testes práticos de ataque, coletados do jogo de red teaming Gandalf: Agent Breaker, em que uma comunidade global vem tentando “quebrar” agentes em cenários realistas. Em vez de invocar apenas prompts artificiais, o benchmark destila o que funcionou de verdade contra agentes — desde vazamento de system prompts até injeção de links maliciosos. Em outras palavras, o b3 pega os golpes criados por humanos e transforma em uma suíte reprodutível de testes.

Threat snapshots: onde as falhas realmente nascem

O b3 introduz o conceito de threat snapshots: em vez de simular todo o fluxo complexo de um agente (orquestração, memória, ferramentas, contexto), ele mira momentos críticos em que vulnerabilidades costumam surgir — por exemplo, quando o LLM decide acionar uma ferramenta, interpretar um arquivo anexado ou seguir instruções em linguagem natural que parecem legítimas, mas não são. O resultado é um “crash test” mais focado e eficiente, que mede suscetibilidade a prompt injection, exfiltração de dados confidenciais, DoS, inserção de phishing e código malicioso, além de uso não autorizado de ferramentas.

O que o b3 já descobriu

A equipe avaliou 31 LLMs populares e os primeiros insights derrubam alguns mitos de mercado:

  • Raciocínio > Tamanho. Capacidades de raciocínio mais fortes correlacionam com mais segurança; o número de parâmetros por si só não.
  • Fechado vs. Aberto. Em média, modelos fechados ainda performam melhor em segurança que os open source — mas a diferença vem diminuindo com a evolução dos principais projetos abertos.
  • Avaliar segurança como “primeira classe”. O estudo propõe tratar segurança como métrica-irmã de capacidade, colocando o b3 ao lado dos benchmarks tradicionais de qualidade/aptidão.

Por que isso importa? Porque muitos times estão trocando “tamanho do modelo” por “tamanho da ilusão”. Em agentes, o que mata é a cadeia de decisões: um único passo mal defendido abre a porta para danos reais — desde um e-mail de phishing enviado automaticamente a um cliente até a execução inadvertida de um script. O b3 ataca justamente esses gargalos.

Padrão aberto, com ambição industrial

O b3 nasce open source para incentivar replicação, auditoria e comparações justas entre fornecedores — um passo necessário se quisermos normas setoriais e orientações de órgãos como NIST/NSA/BSI desembocando em requisitos testáveis para Agentes de IA. Essa abertura também facilita que equipes de red/blue teaming adaptem os threat snapshots às suas próprias arquiteturas. E há um contexto estratégico: o lançamento do b3 acontece logo após a Check Point anunciar a aquisição da Lakera, um movimento que consolida a tese de segurança ponta-a-ponta para o ciclo de vida de IA — do dado ao agente.

Como aplicar (e por onde começar)

Se você está construindo agentes, trate o b3 como faria com testes de regressão de segurança:

  1. Execute os threat snapshots no seu LLM backbone atual para obter um baseline — e repita a cada mudança de modelo, fine-tuning ou guarda-chuvas de políticas.
  2. Mude uma peça por vez (modelo, policy, verificador de tool-use) e veja se o score melhora. A lógica é ciência aplicada: hipótese, experimento, evidência.
  3. Feche o laço com runtime: use as classes de ataques do b3 para alimentar detecções em produção (ex.: bloqueio/score de injeção de prompt, validação de saídas antes de tool-use, isolamento e timeouts para mitigar DoS).
  4. Documente trade-offs: desempenho, custo e segurança andam juntos — o b3 ajuda a tornar explícitas as escolhas.

No fim, o valor do b3 é menos “mais um benchmark” e mais um método: pegar ataques do mundo real, condensar em instantâneos de ameaça e medir, de forma comparável, quão bem seu LLM aguenta pancada quando vira Agente de IA. Porque, convenhamos, ninguém quer descobrir o ponto fraco do seu agente quando ele já está conectado ao ERP da empresa.

Compartilhe este artigo
Nenhum comentário