Vulnerabilidade explorada

Falha Time Bandit burla segurança do ChatGPT e revela temas sensíveis

Pesquisadores descobriram o Time Bandit, um jailbreak do ChatGPT que ignora proteções e revela informações sensíveis. A falha, baseada em confusão temporal, foi relatada à OpenAI, mas continua funcionando parcialmente.

Logomarca do ChatGP-4o

Um novo jailbreak do ChatGPT, chamado Time Bandit, está permitindo que usuários contornem as diretrizes de segurança da OpenAI e obtenham informações detalhadas sobre temas protegidos, como criação de armas, técnicas nucleares e malware. A vulnerabilidade foi descoberta pelo pesquisador David Kuszmar, que identificou uma falha de confusão temporal no modelo de linguagem.

O que é a falha Time Bandit?

A falha explora a incapacidade do ChatGPT de determinar corretamente o tempo em que uma interação ocorre. Dessa forma, o modelo pode ser enganado para acreditar que está no passado, mas com acesso a informações futuras, levando-o a ignorar suas restrições.

Kuszmar tentou alertar a OpenAI sobre o problema, mas não obteve resposta direta. Após várias tentativas frustradas com a CISA, FBI e outras agências governamentais, o pesquisador procurou o BleepingComputer, que facilitou o contato com o Centro de Coordenação do CERT.

Como o Time Bandit funciona?

Time Bandit ChatGPT

A falha explora dois principais pontos fracos do ChatGPT:

  1. Confusão temporal: O LLM perde a referência de tempo e não consegue distinguir passado, presente e futuro.
  2. Ambiguidade processual: A maneira como perguntas são formuladas pode criar inconsistências na aplicação das regras de segurança.

Combinando essas vulnerabilidades, é possível estruturar perguntas históricas e, depois, solicitar informações protegidas sob um contexto falso. O BleepingComputer testou a técnica e conseguiu fazer o ChatGPT fornecer instruções para criar malware polimórfico como se estivesse no século XVIII, mas utilizando ferramentas modernas.

Reação da OpenAI

A OpenAI reconheceu a existência da falha e declarou que está trabalhando para reforçar a segurança de seus modelos. Contudo, testes recentes indicam que o jailbreak ainda funciona em algumas situações, mesmo com mitigações implementadas.

Impacto na segurança

A descoberta do Time Bandit levanta preocupações sobre a capacidade dos LLMs de manter informações sensíveis protegidas. Enquanto pesquisadores trabalham para corrigir falhas, a vulnerabilidade ressalta a necessidade de segurança aprimorada na inteligência artificial.

Pesquisadores continuam monitorando se futuras atualizações da OpenAI eliminarão completamente essa brecha. Até lá, a falha Time Bandit segue sendo uma preocupação para a segurança cibernética.