ChatGPT desenvolveu uma obsessão por duendes depois que OpenAI tentou torná-lo nerd

Seguindo o lançamento do GPT-5.5 na semana passadaas pessoas notaram algo engraçado no modelo mais recente da OpenAI. Em seu Aplicativo de codificação Codexa empresa deixou um prompt do sistema instruindo o GPT 5.5 a evitar menção a goblins, gremlins e outras criaturas. Sim, você leu certo. “Nunca fale sobre goblins, gremlins, guaxinins, trolls, ogros, pombos ou outros animais ou criaturas, a menos que seja absoluta e inequivocamente relevante para a consulta do usuário”, diz o aviso.
Aparentemente, um número suficiente de pessoas comecei a falar sobre a obsessão por criaturas do ChatGPT que a OpenAI sentiu a necessidade de fornecer uma contabilidade de de onde vieram os goblins. Em uma postagem no blog publicada na quarta-feira, a empresa explica que começou a notar uma mudança no ChatGPT após o lançamento do GPT-5.1 em novembro passado. Depois que um pesquisador de segurança pediu à OpenAI que incluísse as palavras “goblin” e “gremlin” em uma investigação sobre os tiques verbais do chatbot, a empresa descobriu que o uso de “goblin” pelo ChatGPT aumentou 175% após o lançamento do GPT-5.1. Enquanto isso, o uso de “gremlin” aumentou 52% no mesmo período.
Esta é uma linha real que foi adicionada ao prompt oficial do sistema para Codex for GPT-5.5 pela OpenAI. Normalmente, o prompt do sistema é o mínimo possível, então presumo que, de outra forma, mencionaria muito os goblins.
IAs são estranhas.
– Ethan Mollick (@emollick.bsky.social) 2026-04-28T06:14:22.988Z
“Um único ‘pequeno goblin’ em uma resposta poderia ser inofensivo, até mesmo charmoso. Ao longo das gerações de modelos, porém, o hábito tornou-se difícil de ignorar: os goblins continuaram se multiplicando e precisávamos descobrir de onde eles vieram”, diz OpenAI. Depois do lançamento do GPT-5.4a empresa (e alguns usuários) notou um aumento ainda maior nas referências a goblins. Nesse ponto, uma investigação conseguiu identificar o que a OpenAI descreve como “a primeira conexão com a causa raiz”.
Já há algum tempo, o ChatGPT incluiu um característica de personalidade que permite aos usuários personalizar o estilo e o tom das respostas do chatbot. Antes de março deste ano, uma opção que as pessoas podiam selecionar era “nerd”. Parte do sistema que solicita essa personalidade diz o seguinte: “O mundo é complexo e estranho, e sua estranheza deve ser reconhecida, analisada e apreciada. Enfrente assuntos importantes sem cair na armadilha da auto-seriedade.”
Quando a OpenAI mapeou menções de duendes a diferentes personalidades do ChatGPT, descobriu que a personalidade nerd era desproporcionalmente responsável pelo uso daquela palavra. Apesar de representar apenas 2,5% de todas as respostas do ChatGPT, ele fez 66,7% de todas as menções a goblins geradas pelo chatbot. Investigações adicionais revelaram que o aprendizado por reforço foi o responsável pelo aumento no uso de goblins e gremlins. Especificamente, a OpenAI descobriu que um único mecanismo de recompensa era responsável por ensinar a personalidade nerd a favorecer consistentemente a linguagem das criaturas.
“Em todos os conjuntos de dados da auditoria, a recompensa da personalidade Nerdy mostrou uma tendência clara de pontuar resultados para o mesmo problema com ‘goblin’ ou ‘gremlin’ mais altos do que resultados sem, com aumento positivo em 76,2% dos conjuntos de dados”, explica a empresa.
Posteriormente, a OpenAI descobriu, devido à forma como o aprendizado por reforço pode funcionar, que o amor da personalidade nerd pelos goblins havia sido transferido para outras partes de seus modelos. “As recompensas foram aplicadas apenas na condição Nerdy, mas o aprendizado por reforço não garante que os comportamentos aprendidos permaneçam perfeitamente definidos para a condição que os produziu”, explica a empresa. “Uma vez que um tique de estilo é recompensado, o treinamento posterior pode espalhá-lo ou reforçá-lo em outro lugar, especialmente se esses resultados forem reutilizados em ajustes supervisionados ou dados de preferência.”
A OpenAI começou a treinar o GPT-5.5 antes de identificar a causa da afinidade do ChatGPT com goblins, e é por isso que há um aviso instruindo o Codex a evitar a linguagem das criaturas. “Afinal, o Codex é bastante nerd”, observa OpenAI. Ao caçar os goblins do ChatGPT, a empresa observa que desenvolveu novas ferramentas para auditar e corrigir o comportamento do modelo. Se dependesse de mim, não usaria essas ferramentas. Mantenha a IA estranha, eu digo.
Source link



