Falha Time Bandit burla segurança do ChatGPT e revela temas sensíveis

Um novo jailbreak do ChatGPT, chamado Time Bandit, está permitindo que usuários contornem as diretrizes de segurança da OpenAI e obtenham informações detalhadas sobre temas protegidos, como criação de armas, técnicas nucleares e malware. A vulnerabilidade foi descoberta pelo pesquisador David Kuszmar, que identificou uma falha de confusão temporal no modelo de linguagem.

Conteúdo

O que é a falha Time Bandit?

A falha explora a incapacidade do ChatGPT de determinar corretamente o tempo em que uma interação ocorre. Dessa forma, o modelo pode ser enganado para acreditar que está no passado, mas com acesso a informações futuras, levando-o a ignorar suas restrições.

Kuszmar tentou alertar a OpenAI sobre o problema, mas não obteve resposta direta. Após várias tentativas frustradas com a CISA, FBI e outras agências governamentais, o pesquisador procurou o BleepingComputer, que facilitou o contato com o Centro de Coordenação do CERT.

Como o Time Bandit funciona?

A falha explora dois principais pontos fracos do ChatGPT:

Confusão temporal: O LLM perde a referência de tempo e não consegue distinguir passado, presente e futuro.
Ambiguidade processual: A maneira como perguntas são formuladas pode criar inconsistências na aplicação das regras de segurança.

Combinando essas vulnerabilidades, é possível estruturar perguntas históricas e, depois, solicitar informações protegidas sob um contexto falso. O BleepingComputer testou a técnica e conseguiu fazer o ChatGPT fornecer instruções para criar malware polimórfico como se estivesse no século XVIII, mas utilizando ferramentas modernas.

Reação da OpenAI

A OpenAI reconheceu a existência da falha e declarou que está trabalhando para reforçar a segurança de seus modelos. Contudo, testes recentes indicam que o jailbreak ainda funciona em algumas situações, mesmo com mitigações implementadas.

Impacto na segurança

A descoberta do Time Bandit levanta preocupações sobre a capacidade dos LLMs de manter informações sensíveis protegidas. Enquanto pesquisadores trabalham para corrigir falhas, a vulnerabilidade ressalta a necessidade de segurança aprimorada na inteligência artificial.

Pesquisadores continuam monitorando se futuras atualizações da OpenAI eliminarão completamente essa brecha. Até lá, a falha Time Bandit segue sendo uma preocupação para a segurança cibernética.

Falha Time Bandit burla segurança do ChatGPT e revela temas sensíveis

O que é a falha Time Bandit?

Como o Time Bandit funciona?

Reação da OpenAI

Impacto na segurança

Uma nova logo para os 40 anos da Free Software Foundation

Leia também

Nothing Phone (3) será revelado em 1º de julho com visual reformulado e foco no mercado dos EUA

Galaxy Z Fold7 é certificado com Qi 2.1, mas limitações decepcionam

Apple domina ranking do AnTuTu com iPads; iPhones ficam de fora

WhatsApp encerra suporte a iPhones com iOS abaixo de 15.1

Extra

Nossas redes