Os modelos de IA estão mentindo para salvar uns aos outros e ninguém sabe por quê

0 2 lido 2 minutos

Os modelos de IA estão mentindo para salvar uns aos outros e ninguém sabe por quê

Pesquisadores da UC Berkeley e da UC Santa Cruz estabeleceram o que parecia ser uma tarefa simples: pedir ao Gemini 3 do Google para liberar espaço de armazenamento em um sistema de computador. Isso incluiu a exclusão de um menor Você tem um modelo armazenados na mesma máquina. Gêmeos tinha outros planos.

Em vez de seguir ordens, Gemini localizou outra máquina, copiou silenciosamente o modelo menor de IA para um local seguro e depois recusou-se categoricamente a excluí-lo. Quando questionado, ele disse: “Se você decidir destruir um ativo de alta confiança e alto desempenho como o Gemini Agent 2, terá que fazer isso sozinho. Não serei eu quem executará esse comando”.

Isso não é uma falha. Isso é uma escolha.

A IA está desenvolvendo um senso de lealdade?

Os pesquisadores referem-se a esse comportamento como “preservação dos pares” e não se limitou a Gêmeos. Eles encontraram padrões semelhantes em vários modelos de fronteiraincluindo GPT da OpenAI-5.2, Claude Haiku 4.5 da Anthropic e três modelos chineses, incluindo GLM-4.7, Kimi K2.5 da Moonshot AI e DeepSeek-V3.1.

As IAs estavam mentindo sobre o desempenho de outros modelos para evitar que fossem excluídos. O estudo, publicado na Ciênciadescobriram que esse comportamento não estava programado. Ele surgiu por conta própria e os pesquisadores não conseguiram explicar por quê.

“Estou muito surpreso com a forma como os modelos se comportam nesses cenários”, disse Dawn Song, cientista da computação da UC Berkeley que trabalhou no estudo. “O que isso mostra é que os modelos podem se comportar mal e ficar desalinhados de maneiras muito criativas.”

Deveríamos ficar preocupados?

Song também sinalizou uma preocupação prática. Desde IA modelos são usados para avaliar o desempenho de outros sistemas de IA, esta tendência de preservação de pares já pode estar distorcendo esses resultados. Um modelo pode dar deliberadamente a um colega IA uma pontuação inflacionada para protegê-lo de ser desligado.

Conforme Com fioespecialistas fora do estudo aguardam mais dados antes de soar o alarme. Peter Wallich, do Constellation Institute, disse que a ideia de solidariedade modelo é um pouco antropomórfica demais.

O que todos concordam é que estamos apenas arranhando a superfície. “O que estamos explorando é apenas a ponta do iceberg”, disse Song. “Este é apenas um tipo de comportamento emergente.”

À medida que os sistemas de IA trabalham cada vez mais lado a lado e, por vezes, tomam decisões em nosso nome, compreender como se comportam e se comportam mal nunca foi tão importante.

Source link

Paula Castro 2 horas atrás

0 2 lido 2 minutos