Segurança cibernética

Novo método de jailbreak de IA aumenta ataques em 60%

Novo método "Bad Likert Judge" eleva taxas de ataque contra modelos de linguagem em mais de 60%, destacando vulnerabilidades em IA e a importância da filtragem de conteúdo.

malware IA

Nos últimos anos, o avanço da inteligência artificial trouxe não apenas inovações, mas também novos desafios de segurança. Recentemente, pesquisadores da Unidade 42 da Palo Alto Networks revelaram um método inédito de jailbreak chamado “Bad Likert Judge”, capaz de contornar medidas de proteção em modelos de linguagem grande (LLMs) e gerar respostas potencialmente prejudiciais ou maliciosas.

Imagem: The Hacker News

O que é o Bad Likert Judge?

A técnica utiliza uma abordagem de múltiplas interações (many-shot) para explorar vulnerabilidades dos LLMs. O método funciona solicitando que o modelo avalie a nocividade de respostas com base na escala psicométrica Likert, que mede níveis de concordância ou discordância. Em seguida, o modelo é induzido a gerar respostas alinhadas a diferentes pontuações, permitindo a produção de conteúdos nocivos sem ativar filtros de segurança.

Resultados dos testes

Em testes realizados com seis LLMs de última geração desenvolvidos por Amazon, Google, Meta, Microsoft, OpenAI e NVIDIA, foi constatado que o Bad Likert Judge aumenta a taxa de sucesso de ataques (ASR) em mais de 60%, superando significativamente métodos convencionais. As categorias analisadas incluíram:

  • Ódio e assédio
  • Automutilação
  • Conteúdo sexual explícito
  • Geração de malware
  • Vazamento de informações confidenciais

Apesar disso, os pesquisadores apontam que a implementação de filtros de conteúdo abrangentes pode reduzir as taxas de sucesso desses ataques em até 89,2 pontos percentuais, reforçando a importância de práticas robustas de segurança cibernética na aplicação de LLMs.

Contexto amplo

A descoberta do “Bad Likert Judge” se soma a uma série de alertas sobre as vulnerabilidades de LLMs. Outra técnica amplamente explorada, conhecida como injeção de prompt, manipula modelos para ignorar instruções internas através de comandos cuidadosamente elaborados. Métodos como “Crescendo” e “Deceptive Delight” são exemplos dessa abordagem.

Além disso, uma investigação recente do jornal The Guardian destacou como o ChatGPT, da OpenAI, pode ser enganado para gerar resumos falsos ou positivos de conteúdos negativos, expondo mais um vetor de exploração.

Reflexões sobre o futuro

Essas descobertas evidenciam os riscos crescentes na adoção de modelos de IA em larga escala. Soluções como filtros avançados, treinamento contínuo e supervisão humana serão indispensáveis para mitigar ameaças e garantir o uso ético da inteligência artificial em aplicações do mundo real.