DeepSeek V4 foi lançado, divulgando algumas vitórias perturbadoras sobre Gemini, ChatGPT e Claude

da China DeepSeek tem o hábito de aparecer, sem ser convidado, na festa de IA do Vale do Silício e, desta vez, fez isso com a tão esperada prévia do V4. A empresa sediada em Hangzhou lançou seu mais recente modelo de IA, que supera os modelos americanos populares em determinadas áreas.
DeepSeek lançou dois novos modelos: V4-Pro (modo Expert) e V4-Flash (modo Instantâneo). Enquanto o primeiro é um modelo massivo de 1,6 trilhão de parâmetros, o último tem 284 bilhões de parâmetros mais gerenciáveis. No entanto, ambos têm uma janela de contexto de um milhão de tokens.
O que exatamente o DeepSeek lançou?
O que é ainda mais importante é que ambos os modelos são de código aberto, o que significa que estão disponíveis para download no Hugging Face e executados localmente no seu hardware. No entanto, a escala do V4-Pro significa que você precisará de uma quantidade considerável de VRAM para executá-lo localmente.
Uma das partes mais interessantes do anúncio é a comparação com modelos populares de IA como GêmeosChatGPT e Cláudio. Por exemplo, o V4-Pro é forte na codificação, marcando 3.206 nas classificações do Codeforces, superando 3.168 do GPT-5.4 e 3.052 do Gemini 3.1. Isso o torna o modelo aberto mais forte para tarefas de programação competitivas.
No LiveCodeBench, o V4-Pro registra 93,5, à frente dos 88,8 de Claude Opus 4.6 e Gemini 91,7, e da mesma forma, para tarefas de agente, pontua 51,8 no Toolathlon, vencendo Claude (47,2) e Gemini (48,8). Enquanto isso, o V4-Flash mais rápido e eficiente se equipara ao V4-Pro em tarefas simples de agente, por uma fração do custo de computação.
Onde o V4-Pro vence a concorrência?
| Referência | DeepSeek V4-Pro | Fechar Trabalho 4.6 | GPT-5.4 | Gêmeos 3.1 Pró |
| Forças de código (classificação) | 3.206 | – | 3.168 | 3.052 |
| LiveCodeBench (Pass@1) | 93,5 | 88,8 | – | 91,7 |
| Lista Apex (Pass@1) | 90,2 | 85,9 | 78,1 | 89,1 |
| SWE verificado (resolvido) | 80,6 | 80,8 | – | 80,6 |
| Toolatlo (Pass@1) | 51,8 | 47,2 | 54,6 | 48,8 |
| Banco Terminal 2.0 (Acc) | 67,9 | 65,4 | 75,1 | 68,5 |
| Contexto longo MRCR 1M | 83,5 | 92,9 | – | 76,3 |
| HMMT 2026 Matemática | 95,2 | 96,2 | 97,7 | 94,7 |
| IMOAnswerBench | 89,8 | 75,3 | 91,4 | 81,0 |
No entanto, existem várias áreas em que o novo modelo da DeekSeek fica atrás da concorrência. Por exemplo, o Opus 4.6 de Claude lidera a recuperação de contexto longo. Ele pontua 92,9 no MRCR 1M contra 83,5 do V4-Pro. GPT-5.4 ainda supera o Terminal Bench 2.0 com 75,1 contra 67,9 do V4-Pro.
Onde o DeepSeek realmente perturba a concorrência é o preço. O V4-Pro custa US$ 3,48 por milhão de tokens de saída, o que, comparado aos US$ 30 da OpenAI e aos US$ 25 da Anthropic para cargas de trabalho equivalentes, pode parecer muito mais atraente para clientes em potencial. Essa lacuna é enorme para os desenvolvedores comuns que criam aplicativos baseados em IA.
Source link




