Um teste cerebral clássico expôs a maior fraqueza da IA

Os sistemas de inteligência artificial podem escrever ensaios, responder perguntas e resolver problemas complexos. Mas uma nova pesquisa sugere que eles podem ter dificuldades com algo que os humanos fazem todos os dias: manter o foco na tarefa em questão quando as distrações atrapalham.
Pesquisadores liderados por Suketu Patel colocaram vários modelos importantes de IA em um conhecido experimento psicológico chamado tarefa Stroop. Os resultados revelaram uma diferença significativa entre a forma como os sistemas de IA processam a informação e como o cérebro humano gere a atenção.
Qual é a tarefa Stroop?
A tarefa Stroop é um teste psicológico clássico usado há décadas para estudar atenção, concentração e autocontrole.
No teste, palavras coloridas como “vermelho”, “azul” ou “verde” são exibidas em tinta colorida. Às vezes, a palavra e a cor da tinta combinam. Por exemplo, a palavra “vermelho” pode aparecer em tinta vermelha. Outras vezes são conflitantes, como a palavra “vermelho” impressa em tinta azul.
Os participantes são convidados a nomear a cor da tinta em vez de ler a palavra em si.
Parece simples, mas cria um desafio porque ler palavras é um hábito automático para a maioria das pessoas. O cérebro deve suprimir o desejo de ler a palavra e, em vez disso, concentrar-se na identificação da cor da tinta.
Os psicólogos costumam usar a tarefa para medir o que é conhecido como controle executivo, um conjunto de processos mentais que ajuda as pessoas a regular a atenção, resistir às distrações e manter o foco nos objetivos.
Testando a atenção da IA
Os pesquisadores queriam ver se os modelos modernos de grandes linguagens (LLMs) lidam com esse desafio da mesma forma que os humanos.
LLMs são os sistemas de IA por trás de ferramentas como ChatGPT, Claude e Gemini. Eles são treinados em enormes quantidades de texto e aprendem padrões de linguagem, o que lhes permite gerar respostas que muitas vezes parecem extraordinariamente humanas.
Quando receberam pequenas listas contendo cinco palavras coloridas, os sistemas de IA geralmente tiveram um bom desempenho, mesmo quando as palavras e as cores não correspondiam.
Contudo, o quadro mudou drasticamente à medida que as listas se tornaram mais longas.
O GPT-4o alcançou 91% de precisão ao trabalhar com cinco palavras. Com dez palavras, sua precisão caiu para 57%. Quando a lista se expandiu para quarenta palavras, a precisão caiu para apenas 15%.
O Claude 3.5 Sonnet manteve um desempenho estável em listas de vinte palavras, mas depois experimentou um declínio acentuado, caindo para 24% de precisão em listas de quarenta palavras.
Os pesquisadores observaram padrões semelhantes no GPT-5, Claude Opus 4.1 e Gemini 2.5.
Quando a IA perde o foco
O desafio tornou-se ainda mais difícil quando palavras de cores correspondentes e incompatíveis apareceram juntas na mesma lista.
Nessas condições, o desempenho deteriorou-se ainda mais. A precisão dos itens incompatíveis caiu para quase zero em alguns casos.
Segundo os pesquisadores, os modelos de IA tiveram dificuldade em manter as instruções para identificar as cores das tintas. Em vez disso, eles próprios passaram a ler cada vez mais as palavras.
Por outras palavras, os sistemas pareciam incapazes de suprimir consistentemente a resposta para a qual tinham sido mais fortemente treinados.
Esta descoberta é particularmente interessante porque os humanos enfrentam um conflito semelhante. As pessoas geralmente são muito melhores em ler palavras do que em nomear cores de tinta. No entanto, apesar deste preconceito, a maioria dos indivíduos consegue manter alta precisão e desempenho estável mesmo quando confrontados com longas listas de palavras e cores conflitantes.
Atenção Humana vs. Atenção da Máquina
O estudo destaca uma distinção importante entre inteligência humana e artificial.
Embora os sistemas modernos de IA possam produzir capacidades impressionantes de linguagem e raciocínio, os seus mecanismos subjacentes diferem dos processos de atenção encontrados nos cérebros biológicos.
Muitas vezes, os humanos conseguem manter o foco em um objetivo específico enquanto filtram informações concorrentes. Os resultados sugerem que os modelos atuais de IA podem ter dificuldades com este tipo de controlo cognitivo quando as tarefas se tornam cada vez mais exigentes.
Os pesquisadores argumentam que o colapso de desempenho observado nesses experimentos aponta para limitações fundamentais nos grandes modelos de linguagem atuais. Embora a IA possa por vezes imitar o comportamento humano, a sua capacidade de manter a atenção parece funcionar de forma muito diferente da forma como as pessoas o fazem.
As descobertas lembram que mesmo os sistemas de IA mais avançados ainda apresentam pontos fracos, especialmente quando as tarefas exigem que eles resistam às distrações e permaneçam concentrados em sequências extensas de informações.
Source link



