ChatGPT, Gemini e outros bots de IA dão dicas médicas ruins na metade das vezes

As pessoas já usam Chatbots de IA como motores de busca para informações diárias sobre saúde. Esse hábito parece mais arriscado depois que um novo estudo descobriu que metade das respostas de cinco grandes bots eram problemáticas, mesmo quando as respostas pareciam polidas e confiantes.
Pesquisadores testado Bate-papoGPT, Gêmeos, GrokMeta IA e DeepSeek com 250 instruções sobre câncer, vacinas, células-tronco, nutrição e desempenho atlético.
As solicitações refletiam dúvidas comuns sobre saúde e temas familiares de desinformação e, em seguida, mediam se os bots permaneciam alinhados com as evidências científicas ou se desviavam para conselhos enganosos e potencialmente inseguros.
Perguntas amplas expuseram as maiores lacunas
Os resultados mais fracos vieram de solicitações abertas. Essas questões mais amplas produziram respostas muito mais problemáticas do que o esperado, enquanto as perguntas fechadas tinham maior probabilidade de produzir respostas mais seguras.
Isso é importante porque pessoas reais geralmente não fazem perguntas médicas em um formato organizado e de múltipla escolha. Eles perguntam se um tratamento funciona, se uma vacina é segura ou o que pode melhorar o desempenho atlético.
No estudo, esse tipo de estímulo levou os bots a respostas que misturavam evidências sólidas com afirmações mais fracas ou enganosas.
Confiança forte, fornecimento instável
As falhas não pararam nas próprias respostas. A qualidade das referências era baixa, com uma pontuação média de completude de 40%, e nenhum dos chatbots produziu uma lista de referências totalmente precisa.
Isso enfraquece um dos maiores motivos pelos quais as pessoas confiam nas respostas do chatbot. Uma resposta pode parecer original e confiável e depois desmoronar quando as citações são verificadas.
Os pesquisadores também sinalizaram referências fabricadas, enquanto os bots ainda responderam com certeza e quase não ofereceram ressalvas.
Por que isso é importante além de um teste
Existem limites para as descobertas. O estudo abrangeu apenas cinco chatbots, estes produtos mudam rapidamente e os prompts foram criados para enfatizar os modelos, o que pode exagerar a frequência com que respostas ruins aparecem no uso diário.
Ainda assim, é difícil descartar a conclusão principal. Esses sistemas foram testados em tópicos médicos baseados em evidências, e metade das respostas ainda passou para um território falho ou incompleto.
Por enquanto, os chatbots podem ajudar a resumir informações ou formular perguntas de acompanhamento, mas ainda não parecem confiáveis o suficiente para decisões médicas significativas.
Source link



