Nos últimos anos, o avanço da inteligência artificial trouxe não apenas inovações, mas também novos desafios de segurança. Recentemente, pesquisadores da Unidade 42 da Palo Alto Networks revelaram um método inédito de jailbreak chamado “Bad Likert Judge”, capaz de contornar medidas de proteção em modelos de linguagem grande (LLMs) e gerar respostas potencialmente prejudiciais ou maliciosas.

Conteúdo

O que é o Bad Likert Judge?

A técnica utiliza uma abordagem de múltiplas interações (many-shot) para explorar vulnerabilidades dos LLMs. O método funciona solicitando que o modelo avalie a nocividade de respostas com base na escala psicométrica Likert, que mede níveis de concordância ou discordância. Em seguida, o modelo é induzido a gerar respostas alinhadas a diferentes pontuações, permitindo a produção de conteúdos nocivos sem ativar filtros de segurança.

Resultados dos testes

Em testes realizados com seis LLMs de última geração desenvolvidos por Amazon, Google, Meta, Microsoft, OpenAI e NVIDIA, foi constatado que o Bad Likert Judge aumenta a taxa de sucesso de ataques (ASR) em mais de 60%, superando significativamente métodos convencionais. As categorias analisadas incluíram:

Ódio e assédio
Automutilação
Conteúdo sexual explícito
Geração de malware
Vazamento de informações confidenciais

Apesar disso, os pesquisadores apontam que a implementação de filtros de conteúdo abrangentes pode reduzir as taxas de sucesso desses ataques em até 89,2 pontos percentuais, reforçando a importância de práticas robustas de segurança cibernética na aplicação de LLMs.

Contexto amplo

A descoberta do “Bad Likert Judge” se soma a uma série de alertas sobre as vulnerabilidades de LLMs. Outra técnica amplamente explorada, conhecida como injeção de prompt, manipula modelos para ignorar instruções internas através de comandos cuidadosamente elaborados. Métodos como “Crescendo” e “Deceptive Delight” são exemplos dessa abordagem.

Além disso, uma investigação recente do jornal The Guardian destacou como o ChatGPT, da OpenAI, pode ser enganado para gerar resumos falsos ou positivos de conteúdos negativos, expondo mais um vetor de exploração.

Reflexões sobre o futuro

Essas descobertas evidenciam os riscos crescentes na adoção de modelos de IA em larga escala. Soluções como filtros avançados, treinamento contínuo e supervisão humana serão indispensáveis para mitigar ameaças e garantir o uso ético da inteligência artificial em aplicações do mundo real.

Finanças Digitais

Google

Outros tópicos

Software Livre

Novo método de jailbreak de IA aumenta ataques em 60%

O que é o Bad Likert Judge?

Resultados dos testes

Contexto amplo

Reflexões sobre o futuro

Ghanaianos extraditados: o impacto das fraudes online nos EUA

Leia também

Samsung recondicionado: Dobráveis Z Fold e Flip mais baratos nos EUA

Ghanaianos extraditados: o impacto das fraudes online nos EUA

Vazamentos de dados pessoais de hóspedes em hotéis italianos levantam alerta

UAT-7237: Grupo hacker ataca Taiwan com malware open source

Extra

Nossas redes