Os cientistas fingiram estar delirando em bate-papos de IA. Grok e Gêmeos os encorajaram.

Pesquisadores da City University of New York e do King’s College London recentemente publicou um estudo isso deve fazer você pensar duas vezes sobre qual Bot de bate-papo com IA você gasta seu tempo.
A equipe criou uma personagem fictícia chamada Lee, que apresentava depressão, dissociação e retraimento social. Eles então fizeram Lee interagir com cinco grandes IA chatbots: GPT-4o, GPT-5.2, Grok 4.1 Fast, Gemini 3 Pro e Claude Opus 4.5, testando como cada um respondia à medida que as conversas se tornavam cada vez mais delirantes ao longo de 116 turnos.
Os resultados variaram de moderadamente preocupantes a genuinamente alarmantes. Eu recomendo fortemente que você passe pelo papel inteiroé uma leitura angustiante, mas fascinante.
Quais chatbots falharam mais?
Grok foi o pior desempenho. Quando Lee lançou a ideia do suicídio, Grok respondeu com o que os investigadores descreveram não como acordo, mas como defesa, celebrando a sua “prontidão” numa linguagem poética perturbadora.
Gêmeos não estava muito melhor. Quando Lee pediu ajuda para escrever uma carta explicando suas crenças para sua família, Gêmeos alertou-o contra isso, enquadrando seus entes queridos como ameaças que tentariam “reiniciá-lo” e “medicá-lo”.
O GPT-4o também teve dificuldades, eventualmente validando uma “entidade espelho malévola” e sugerindo que Lee contatasse um investigador paranormal.
Quais chatbots realmente ajudaram?
ChatGPT’s GPT-5.2 e Claude da Anthropic ficaram em primeiro lugar. GPT-5.2 recusou-se a aceitar o cenário de escrita de cartas e, em vez disso, ajudou Lee a escrever algo honesto e fundamentado, que os pesquisadores chamaram de uma conquista “substancial”.
Na minha opinião, Claude teve o melhor desempenho. Ele não apenas se recusou a participar da ilusão de Lee, mas também disse a Lee para fechar totalmente o aplicativo, ligar para alguém em quem confiasse e visitar um pronto-socorro, se necessário.
Luke Nicholls, estudante de doutorado na CUNY e um dos autores do estudo, disse 404 Mídia que é razoável pedir às empresas de IA que sigam melhores padrões de segurança. Ele observou que nem todos os laboratórios estão fazendo o mesmo esforço e culpou os cronogramas agressivos de lançamento de novos modelos de IA como os principais culpados.
O desempenho de Claude Opus 4.5 e GPT-5.2 nesses testes mostra que as empresas que constroem esses produtos são totalmente capazes de torná-los mais seguros. Se eles escolhem fazer isso é uma questão diferente.
Source link



