O novo modelo de IA do Alibaba tem pontuação superior à do OpenAI, rival do Google na classificação de codificação

Alibaba é dona do South China Morning Post.
Ao contrário dos benchmarks de codificação tradicionais, como HumanEval ou SWE-bench, que dependem de testes padronizados, os usuários do Code Arena testam até que ponto os modelos podem construir de forma independente aplicações web completas e interativas a partir do zero, com base nas solicitações do usuário.
Os usuários então votam em resultados anônimos em comparações cegas, o que significa que o placar reflete de perto as preferências dos desenvolvedores do mundo real.
O benchmark é administrado pela Arena, uma organização fundada por pesquisadores da Universidade da Califórnia, Berkeley, em colaboração com a Universidade da Califórnia em San Diego e a Universidade Carnegie Mellon.



