ChatGPT conquistou o mundo em 2023. Ele pode gerar texto e imagens para todos os tipos de coisas em um nível que nenhum outro serviço era capaz anteriormente. No entanto, o ChatGPT e, por extensão, outros como o Google Bard, são um pesadelo de privacidade por uma infinidade de razões.
GPT-3.5 e GPT-4 foram treinados em informações de identificação pessoal
Quando se trata do treinamento de ambos os modelos, a OpenAI já disse que eles podem ter sido treinados com base em informações privadas encontradas publicamente. Recentemente, pesquisadores do DeepMind do Google descobriram que pedir ao ChatGPT para repetir a palavra “poema” infinitamente resultava na divulgação de dados aleatórios sobre indivíduos. Em alguns casos, forneceu nomes completos, endereços e números de telefone de pessoas que estavam em seus dados de treinamento, e não está claro por que isso aconteceu.
Independentemente disso, o treinamento em dados privados causou vários problemas para a OpenAI. Foi inicialmente proibido na Itália devido a questões de privacidade, embora desde então tenha sido reinstaurado com uma série de avisos. Mesmo assim, a privacidade e a OpenAI são arriscadas. Embora se possa argumentar que os dados sobre os quais foi treinado foram partilhados publicamente online, a integridade contextual é importante ao examinar como os dados foram recolhidos e analisados.
Dados online e a privacidade usando o ChatGPT
Infelizmente, a coleta desses dados on-line também fez com que sites como Reddit e X reduzissem significativamente a quantidade de seus dados disponíveis e por meio de quais métodos GPT-3.5 e GPT-4 foram treinados em informações publicamente disponíveis online, incluindo tópicos e tweets do Reddit. Um usuário do Twitter descobriu que seu próprio tweet provavelmente estava nos dados de treinamento do GPT-4.
Embora provavelmente nunca saberemos com certeza se o tweet da pessoa estava realmente nos dados de treinamento, a questão é que poderia ter sido. A OpenAI nunca confirmará quais dados específicos estão no conjunto de treinamento.
Tudo isto levanta questões aos reguladores da UE, que também podem ter dúvidas sobre os regulamentos do GDPR. Se os dados de treinamento contiverem informações pessoais, como solicitar uma cópia dos seus dados de acordo com o GDPR? Como posso eu, cidadão da UE, solicitar que a OpenAI apague todos os dados que me pertencem? Não posso, e muito provavelmente a empresa também não.
As pessoas dizem qualquer coisa ao ChatGPT
O outro problema é que as pessoas estão dizendo literalmente qualquer coisa. O conteúdo colocado no ChatGPT é usado como dados de treinamento por padrão (embora possa ser desativado) e inclui dados confidenciais que os usuários inseriram sobre si mesmos ou sobre as empresas para as quais trabalham. O JP Morgan e a Verizon bloquearam totalmente o uso do serviço pelos funcionários, e a Amazon teve que alertar os funcionários para não fazerem o mesmo.
Mesmo que você opte por não participar da coleta de dados e do treinamento, seus bate-papos ainda serão mantidos por 30 dias, inclusive se você inserir informações confidenciais com a configuração desativada.
A análise real desses dados feita pela Cyberhaven é ainda mais surpreendente. Descobriu-se que “11% dos dados que fluem para o ChatGPT” poderiam ser marcados como confidenciais. Ao longo de uma semana, estimou-se que uma empresa média de 100.000 pessoas experimentou:
Todas essas preocupações também se aplicam ao Google Bard, e a empresa é muito franca sobre esse fato. O Google diz em seu centro de privacidade que não deve “inserir informações confidenciais em suas conversas do Bard ou quaisquer dados que você não gostaria que um revisor visse ou que o Google usasse para melhorar nossos produtos, serviços e tecnologias de aprendizado de máquina”.