b3: o “crash test” open source para segurança de agentes de IA

Os Agentes de IA (Agentic AI) são a próxima fronteira: conectam LLMs a ferramentas reais — arquivos, internet, APIs — e começam a tomar ações por conta própria. Só que essa autonomia abre uma superfície de ataque gigante. Como testar, de forma objetiva, se um agente resiste a prompt injection, phishing, uso indevido de ferramentas ou negação de serviço? Até agora, construir um agente era como projetar um carro super-rápido sem pista de testes nem “crash test dummy”. A Check Point (via Lakera) e o AISI (Instituto de Segurança em IA do Reino Unido) dizem ter criado esse boneco de impacto: o Backbone Breaker Benchmark (b3) — um AI Agent security benchmark de open source voltado para segurança.

Construído a partir de um jogo de “hacking”

O gancho que torna o b3 diferente não é teórico, é empírico: ele é alimentado por 19.433 testes práticos de ataque, coletados do jogo de red teaming Gandalf: Agent Breaker, em que uma comunidade global vem tentando “quebrar” agentes em cenários realistas. Em vez de invocar apenas prompts artificiais, o benchmark destila o que funcionou de verdade contra agentes — desde vazamento de system prompts até injeção de links maliciosos. Em outras palavras, o b3 pega os golpes criados por humanos e transforma em uma suíte reprodutível de testes.

Threat snapshots: onde as falhas realmente nascem

O b3 introduz o conceito de threat snapshots: em vez de simular todo o fluxo complexo de um agente (orquestração, memória, ferramentas, contexto), ele mira momentos críticos em que vulnerabilidades costumam surgir — por exemplo, quando o LLM decide acionar uma ferramenta, interpretar um arquivo anexado ou seguir instruções em linguagem natural que parecem legítimas, mas não são. O resultado é um “crash test” mais focado e eficiente, que mede suscetibilidade a prompt injection, exfiltração de dados confidenciais, DoS, inserção de phishing e código malicioso, além de uso não autorizado de ferramentas.

O que o b3 já descobriu

A equipe avaliou 31 LLMs populares e os primeiros insights derrubam alguns mitos de mercado:

Raciocínio > Tamanho. Capacidades de raciocínio mais fortes correlacionam com mais segurança; o número de parâmetros por si só não.
Fechado vs. Aberto. Em média, modelos fechados ainda performam melhor em segurança que os open source — mas a diferença vem diminuindo com a evolução dos principais projetos abertos.
Avaliar segurança como “primeira classe”. O estudo propõe tratar segurança como métrica-irmã de capacidade, colocando o b3 ao lado dos benchmarks tradicionais de qualidade/aptidão.

Por que isso importa? Porque muitos times estão trocando “tamanho do modelo” por “tamanho da ilusão”. Em agentes, o que mata é a cadeia de decisões: um único passo mal defendido abre a porta para danos reais — desde um e-mail de phishing enviado automaticamente a um cliente até a execução inadvertida de um script. O b3 ataca justamente esses gargalos.

Padrão aberto, com ambição industrial

O b3 nasce open source para incentivar replicação, auditoria e comparações justas entre fornecedores — um passo necessário se quisermos normas setoriais e orientações de órgãos como NIST/NSA/BSI desembocando em requisitos testáveis para Agentes de IA. Essa abertura também facilita que equipes de red/blue teaming adaptem os threat snapshots às suas próprias arquiteturas. E há um contexto estratégico: o lançamento do b3 acontece logo após a Check Point anunciar a aquisição da Lakera, um movimento que consolida a tese de segurança ponta-a-ponta para o ciclo de vida de IA — do dado ao agente.

Como aplicar (e por onde começar)

Se você está construindo agentes, trate o b3 como faria com testes de regressão de segurança:

Execute os threat snapshots no seu LLM backbone atual para obter um baseline — e repita a cada mudança de modelo, fine-tuning ou guarda-chuvas de políticas.
Mude uma peça por vez (modelo, policy, verificador de tool-use) e veja se o score melhora. A lógica é ciência aplicada: hipótese, experimento, evidência.
Feche o laço com runtime: use as classes de ataques do b3 para alimentar detecções em produção (ex.: bloqueio/score de injeção de prompt, validação de saídas antes de tool-use, isolamento e timeouts para mitigar DoS).
Documente trade-offs: desempenho, custo e segurança andam juntos — o b3 ajuda a tornar explícitas as escolhas.

No fim, o valor do b3 é menos “mais um benchmark” e mais um método: pegar ataques do mundo real, condensar em instantâneos de ameaça e medir, de forma comparável, quão bem seu LLM aguenta pancada quando vira Agente de IA. Porque, convenhamos, ninguém quer descobrir o ponto fraco do seu agente quando ele já está conectado ao ERP da empresa.

Novo “crash test” para Agentes de IA: o benchmark b3 usa um “jogo de hacking” para expor falhas em LLMs

O “crash test” open source que mede a segurança real de agentes de IA.

Construído a partir de um jogo de “hacking”

Threat snapshots: onde as falhas realmente nascem

O que o b3 já descobriu

Padrão aberto, com ambição industrial

Como aplicar (e por onde começar)

Deixe um comentário Cancelar resposta

Google Maps testa modo de economia de energia radical ativado pelo botão de ligar

Leia também

Google Maps testa modo de economia de energia radical ativado pelo botão de ligar

Novo “crash test” para Agentes de IA: o benchmark b3 usa um “jogo de hacking” para expor falhas em LLMs

Samsung Galaxy S26: Detalhes de IA, chip Exynos 2nm e mais

Threads ganha aprovação de respostas e novos filtros de atividade

Extra

Nossas redes