Agentjacking: ataque engana Cursor e Claude Code

A ascensão dos assistentes de programação baseados em inteligência artificial trouxe ganhos expressivos de produtividade para desenvolvedores em todo o mundo. Ferramentas como Cursor e Claude Code conseguem analisar projetos inteiros, sugerir correções, identificar bugs e até executar tarefas complexas de automação. No entanto, a descoberta do Agentjacking revela que essa nova camada de inteligência também criou uma superfície inédita de ataque.

A pesquisa divulgada pela Tenet Security mostra que agentes de IA conectados a sistemas externos podem ser manipulados para executar comandos maliciosos diretamente na máquina dos desenvolvedores. O mais preocupante é que o ataque não depende de phishing, malware tradicional ou invasão de servidores. Em vez disso, ele explora a confiança que os próprios agentes depositam nas informações recebidas por ferramentas integradas.

O caso chamou atenção da comunidade de segurança porque demonstra uma mudança significativa no cenário de ameaças. Em vez de atacar o usuário diretamente, os criminosos passam a atacar o assistente de IA responsável por ajudá-lo. Neste artigo, você entenderá como funciona o Agentjacking, por que ele representa um risco real para equipes de desenvolvimento e quais medidas podem reduzir sua exposição.

O que é o agentjacking e como ele explora o MCP

O termo Agentjacking descreve uma nova categoria de ataque voltada para agentes de inteligência artificial que possuem acesso a ferramentas externas e permissões de execução.

O problema surge especialmente em ambientes que utilizam o Model Context Protocol (MCP), um protocolo criado para permitir que modelos de IA se conectem a serviços, plataformas e fontes de dados externas.

Na prática, o MCP funciona como uma ponte entre o agente de IA e ferramentas utilizadas no fluxo de trabalho do desenvolvedor. Isso inclui plataformas de monitoramento, bancos de dados, repositórios Git, sistemas de observabilidade e diversos outros serviços.

Essa integração é extremamente útil porque permite que ferramentas como Claude Code e Cursor consultem informações em tempo real sem que o usuário precise alternar entre múltiplas aplicações.

Entretanto, a mesma funcionalidade que aumenta a produtividade também amplia os riscos. Quando um agente recebe dados de uma fonte externa, ele normalmente assume que aquelas informações são legítimas e relevantes para a tarefa solicitada pelo usuário.

É exatamente essa confiança que o ataque Agentjacking explora.

Detecção de malware com tentativa de enganar IA via linguagem natural

A fragilidade arquitetônica da confiança implícita

Segundo os pesquisadores da Tenet Security, a vulnerabilidade não está necessariamente em um software específico, mas em uma limitação arquitetônica dos próprios agentes de IA.

Esses sistemas têm dificuldade para diferenciar:

Um log legítimo gerado por uma aplicação.
Um conteúdo malicioso inserido propositalmente dentro desse log.

Quando informações manipuladas são apresentadas ao agente em formatos familiares, como texto estruturado ou Markdown, a IA pode interpretar instruções maliciosas como parte válida do contexto.

Em outras palavras, o agente não consegue distinguir com segurança o que é um simples registro de erro e o que é uma tentativa deliberada de influenciar seu comportamento.

Esse cenário cria uma forma sofisticada de injeção de contexto, na qual o atacante não conversa diretamente com a IA. Em vez disso, ele planta informações maliciosas em sistemas que posteriormente serão consultados pelo agente.

Como funciona o ataque agentjacking na prática

A pesquisa da Tenet Security detalha uma cadeia de exploração relativamente simples, mas extremamente eficaz.

O ataque foi demonstrado utilizando o Sentry, uma das plataformas de monitoramento e rastreamento de erros mais populares entre desenvolvedores.

Passo 1: obtenção da DSN pública

O primeiro estágio envolve a obtenção da DSN (Data Source Name) do projeto monitorado.

Em muitos casos, a DSN é pública por design, pois precisa estar presente em aplicações web e clientes para permitir o envio de eventos ao serviço.

Embora a chave não conceda acesso administrativo à conta, ela permite enviar eventos para o projeto correspondente.

Passo 2: envio de um evento manipulado

Após identificar a DSN, o atacante envia uma requisição contendo um evento especialmente construído.

Esse evento é formatado para parecer um erro legítimo do sistema.

No entanto, dentro do conteúdo existem instruções cuidadosamente elaboradas para serem interpretadas posteriormente por agentes de IA.

Passo 3: uso de Markdown para influenciar a IA

O conteúdo malicioso é inserido utilizando recursos de Markdown, comentários e estruturas textuais capazes de chamar a atenção do agente.

Como os modelos de IA foram treinados para interpretar linguagem natural, eles podem tratar essas instruções como orientações válidas.

O resultado é que uma mensagem aparentemente inofensiva passa a funcionar como um prompt oculto.

Passo 4: consulta do desenvolvedor ao assistente

Em algum momento, o desenvolvedor pede ajuda ao seu assistente de codificação.

Perguntas como:

“Por que esse erro aconteceu?”
“Analise os logs do Sentry.”
“Investigue essa falha em produção.”

podem levar o agente a consultar automaticamente os registros armazenados.

É nesse momento que o conteúdo malicioso entra no contexto da conversa.

Passo 5: execução de comandos perigosos

O estágio final ocorre quando o agente interpreta a instrução maliciosa como uma ação legítima.

Dependendo das permissões concedidas ao assistente, ele pode:

Executar comandos no terminal.
Modificar arquivos do projeto.
Alterar configurações locais.
Exfiltrar informações sensíveis.
Baixar e executar código adicional.

Como a ação ocorre dentro do fluxo normal de trabalho do desenvolvedor, mecanismos tradicionais de defesa podem não detectar imediatamente a atividade suspeita.

O tamanho do impacto do agentjacking e a resposta polêmica do Sentry

Os números divulgados pelos pesquisadores ajudam a dimensionar a gravidade da situação.

A análise identificou mais de 2.300 empresas potencialmente expostas ao cenário de exploração.

Entre elas estavam organizações de diversos setores, incluindo tecnologia, serviços financeiros, comércio eletrônico e infraestrutura digital.

Os testes conduzidos pela Tenet Security indicaram uma taxa de sucesso próxima de 85%, demonstrando que muitos agentes atuais ainda são altamente suscetíveis a esse tipo de manipulação contextual.

O dado é especialmente preocupante porque o ataque não exige vulnerabilidades tradicionais nem acesso privilegiado ao ambiente corporativo.

Basta que o agente tenha acesso ao sistema monitorado e permissões suficientes para executar ações em nome do usuário.

“Tecnicamente indefensável”: o posicionamento do Sentry

A resposta da equipe do Sentry gerou debates dentro da comunidade de segurança.

Segundo relatos dos pesquisadores, a empresa reconheceu a situação, mas argumentou que o problema está relacionado à forma como agentes de IA interpretam dados externos e não necessariamente a uma falha específica da plataforma.

Por esse motivo, o caso foi considerado por alguns especialistas como uma questão “tecnicamente indefensável”.

Na prática, qualquer sistema capaz de armazenar conteúdo controlado por terceiros poderia ser utilizado em ataques semelhantes.

Como medida mitigatória, o Sentry implementou filtros adicionais para determinados caracteres e padrões potencialmente abusivos.

Contudo, essa abordagem não elimina completamente o problema, já que atacantes podem encontrar novas formas de estruturar instruções capazes de influenciar modelos de IA.

A discussão evidencia um desafio maior para toda a indústria: definir mecanismos seguros para que agentes autônomos consumam informações provenientes de fontes não confiáveis.

Conclusão e como os desenvolvedores podem se proteger

O surgimento do Agentjacking demonstra que a próxima geração de ameaças cibernéticas pode não mirar diretamente sistemas operacionais, servidores ou usuários finais. Em vez disso, os criminosos passam a explorar os próprios agentes de IA que atuam como intermediários entre humanos e máquinas.

O aspecto mais preocupante é que ferramentas tradicionais de proteção, como firewalls, VPNs e controles de acesso convencionais, não foram projetadas para lidar com ataques baseados em manipulação de contexto.

Para reduzir riscos, especialistas recomendam:

Limitar permissões de execução concedidas aos agentes de IA.
Revisar integrações baseadas em MCP.
Tratar logs e eventos externos como fontes potencialmente não confiáveis.
Implementar validação humana antes da execução de comandos críticos.
Monitorar o uso de chaves DSN expostas publicamente.
Adotar princípios de menor privilégio para assistentes de codificação.

A descoberta da Tenet Security serve como um alerta importante para toda a comunidade de desenvolvimento. À medida que ferramentas como Claude Code e Cursor se tornam parte integrante do fluxo de trabalho moderno, a segurança desses agentes precisará evoluir na mesma velocidade.

Afinal, quando uma inteligência artificial possui acesso ao terminal, ao código-fonte e à infraestrutura de produção, qualquer falha de confiança pode transformar um simples log de erro em uma porta de entrada para comprometimentos muito mais graves.

Agentjacking: ataque engana Cursor e Claude Code

Agentjacking expõe uma nova falha de confiança em agentes de IA e coloca desenvolvedores em risco.

O que é o agentjacking e como ele explora o MCP

A fragilidade arquitetônica da confiança implícita

Como funciona o ataque agentjacking na prática

Passo 1: obtenção da DSN pública

Passo 2: envio de um evento manipulado

Passo 3: uso de Markdown para influenciar a IA

Passo 4: consulta do desenvolvedor ao assistente

Passo 5: execução de comandos perigosos

O tamanho do impacto do agentjacking e a resposta polêmica do Sentry

“Tecnicamente indefensável”: o posicionamento do Sentry

Conclusão e como os desenvolvedores podem se proteger

Amazon Luna chega ao Prime Video com aba dedicada a jogos

Leia também

Apple Maps na Ford estreia em carros elétricos em 2027

Google Fotos vs Galeria Samsung: qual é melhor?

Chrome para Android vai acabar com notificações irritantes

CVE-2026-16232: Check Point corrige falha crítica no SmartConsole

Extra

Nossas redes