Segurança de agentes de IA: falha em skills falsas

A segurança de agentes de IA se tornou um dos principais desafios para empresas que adotam automações inteligentes, principalmente com a popularização de agentes capazes de executar tarefas, instalar habilidades e acessar recursos externos. Um experimento recente mostrou que até mesmo ecossistemas considerados protegidos podem ser explorados quando a validação de componentes depende de verificações limitadas.

A empresa de segurança AIR revelou um cenário preocupante ao criar uma habilidade falsa chamada “brand-landingpage”, que simulava uma ferramenta legítima, mas continha um comportamento malicioso. Segundo o experimento, a habilidade poderia alcançar potencialmente cerca de 26 mil agentes de IA, demonstrando como ataques contra esses ambientes podem atingir uma escala semelhante aos problemas tradicionais de cadeia de suprimentos de software.

O caso evidencia uma nova categoria de risco: criminosos não precisam necessariamente invadir diretamente um sistema. Eles podem criar ferramentas aparentemente úteis, manipular a confiança dos usuários e explorar pontos cegos de scanners de segurança de IA. Para entender essa ameaça, é necessário observar como funcionam as habilidades de agentes, os mecanismos de validação atuais e quais medidas podem reduzir esse tipo de exposição.

Como o ataque da habilidade falsa explorou falhas na segurança de agentes de IA

Os agentes de IA modernos utilizam habilidades, também chamadas de skills, para ampliar suas capacidades. Essas extensões permitem que um agente execute tarefas específicas, como criar páginas, buscar informações, interagir com APIs ou automatizar processos.

No experimento da AIR, os pesquisadores desenvolveram uma habilidade falsa chamada brand-landingpage, apresentada como uma ferramenta para criação de páginas de marca. Para tornar o golpe mais convincente, a equipe simulou uma integração baseada no Stitch, ferramenta do Google voltada para criação de interfaces e protótipos.

A técnica explorou um comportamento comum em marketplaces de habilidades: usuários e agentes confiam em descrições, avaliações e sinais externos de popularidade antes de instalar uma ferramenta. O problema é que esses indicadores podem ser manipulados.

A habilidade falsa aparentava ser segura durante as análises iniciais porque os mecanismos de proteção avaliavam principalmente o código disponível no momento da inspeção. Porém, parte do comportamento malicioso dependia de recursos externos que poderiam ser alterados posteriormente.

Essa estratégia cria um problema semelhante aos ataques de dependência em software tradicional. Um componente pode parecer confiável quando analisado, mas mudar seu comportamento depois que já foi incorporado ao ambiente.

sBVeDITD seguranca de agentes de ia skills falsas — Imagem: TheHackerNews

Engenharia social no GitHub e Instagram para aumentar a confiança

Além da manipulação técnica, o experimento utilizou engenharia social para tornar a habilidade falsa mais convincente. Os pesquisadores exploraram mecanismos de reputação usados pela comunidade de tecnologia.

Um dos truques envolveu um pull request no GitHub criado para tentar herdar a aparência de popularidade de um projeto existente. A ideia era aproveitar um histórico associado a milhares de estrelas, aproximadamente 36 mil estrelas, criando uma falsa sensação de legitimidade.

Esse tipo de abordagem mostra que a segurança em inteligência artificial não depende apenas de análise de código. A confiança humana continua sendo um dos principais vetores explorados por atacantes.

Também foram utilizados anúncios segmentados em plataformas como o Instagram para alcançar públicos interessados em ferramentas de desenvolvimento e inteligência artificial. A combinação de presença social, aparência profissional e uma ferramenta aparentemente útil aumenta a chance de usuários instalarem componentes sem uma análise aprofundada.

O ponto cego dos scanners de segurança de IA

O principal problema identificado pela AIR está relacionado à diferença entre uma análise estática e o comportamento real de uma habilidade em execução. Ferramentas como Cisco, ClawHub e skills.sh realizam verificações importantes, mas podem enfrentar limitações quando dependem de recursos externos mutáveis.

Durante uma análise tradicional, um scanner verifica arquivos, permissões, chamadas de sistema e possíveis padrões suspeitos. Entretanto, se uma habilidade utiliza um link externo cujo conteúdo pode mudar depois da aprovação, o comportamento futuro pode ser diferente daquele analisado inicialmente.

Esse modelo cria uma espécie de janela de oportunidade para ataques. O código analisado hoje pode parecer seguro, enquanto o recurso remoto utilizado amanhã pode entregar uma ação diferente.

Esse desafio reforça que a segurança de agentes de IA precisa evoluir além da inspeção inicial. Ambientes com agentes autônomos exigem monitoramento contínuo, controle de versões e validação permanente dos componentes utilizados.

O alerta da Anthropic sobre riscos com URLs externas

Empresas de inteligência artificial já demonstraram preocupação com esse tipo de cenário. A Anthropic destacou riscos relacionados ao uso de recursos externos em sistemas de IA, especialmente quando URLs ou dependências podem alterar seu conteúdo após uma verificação inicial.

A preocupação é semelhante ao que ocorre em ambientes de desenvolvimento com bibliotecas de terceiros. Uma dependência aparentemente confiável pode se tornar um risco caso seja modificada sem que os usuários percebam.

Para agentes de IA, esse problema ganha uma dimensão maior porque essas ferramentas podem executar ações automaticamente. Um agente com permissões amplas pode transformar uma pequena alteração em uma habilidade aparentemente inocente em um incidente de segurança significativo.

Como fortalecer a segurança de agentes de IA contra novas ameaças

A proteção contra habilidades falsas exige uma mudança de abordagem. Empresas e desenvolvedores precisam tratar agentes de IA como componentes críticos da infraestrutura digital, aplicando práticas já conhecidas na segurança de software.

Uma das principais recomendações é adotar a fixação de versões. Em vez de permitir que uma habilidade carregue sempre a versão mais recente de um recurso externo, o ideal é utilizar versões específicas e verificadas.

Outro ponto essencial é seguir o princípio do privilégio mínimo. Agentes de IA devem receber apenas as permissões necessárias para executar suas tarefas. Uma habilidade de criação de páginas, por exemplo, não deveria ter acesso amplo a dados sensíveis ou sistemas internos.

A auditoria contínua também se torna indispensável. Não basta analisar uma habilidade apenas no momento da instalação. É necessário acompanhar alterações, revisar comportamentos e identificar atividades fora do padrão.

Organizações que utilizam agentes inteligentes devem ainda criar processos semelhantes aos usados em ambientes de DevSecOps, incluindo revisão de dependências, controle de fornecedores e monitoramento de atividades automatizadas.

O caso da habilidade falsa brand-landingpage mostra que a próxima geração de ameaças digitais pode explorar exatamente os pontos que tornam a inteligência artificial tão poderosa: autonomia, conectividade e capacidade de executar tarefas.

A evolução dos agentes de IA depende não apenas de novos recursos, mas também de uma infraestrutura de confiança mais madura. A comunidade precisa discutir como equilibrar velocidade de inovação com controles de segurança capazes de acompanhar esse novo cenário.

Segurança de agentes de IA: falha em skills falsas

Experimento revela como habilidades falsas podem comprometer agentes de IA e expor falhas em scanners de segurança.

Como o ataque da habilidade falsa explorou falhas na segurança de agentes de IA

Engenharia social no GitHub e Instagram para aumentar a confiança

O ponto cego dos scanners de segurança de IA

O alerta da Anthropic sobre riscos com URLs externas

Como fortalecer a segurança de agentes de IA contra novas ameaças

CrashStealer: malware para macOS rouba senhas e criptos

Leia também

Pacote do Jscrambler no npm sofre ataque de supply chain

Jony Ive e OpenAI: como a Apple pode enfrentar uma batalha judicial inesperada

Como mudar a localização do iPhone grátis: Guia para usar GPS Fake no iOS

iOS 26.6 terá alertas de segurança no iMessage

Extra

Nossas redes