O modelo de voz Alibaba AI está entre os 5 primeiros no mundo, superando os rivais dos EUA em sotaques regionais

Um novo modelo de voz de inteligência artificial do Alibaba Group Holding derrotou os rivais ocidentais OpenAI e xAI num importante benchmark global, sublinhando a sua vantagem técnica na captura de dialectos e sotaques chineses complexos.
Alibaba é dona do South China Morning Post.
O benchmark Speech Arena é operado pela Artificial Analysis, uma organização de avaliação de IA com sede em São Francisco, apoiada por investidores, incluindo o ex-presidente-executivo do GitHub, Nat Friedman, e o fundador do Google Brain, Andrew Ng.
A plataforma classifica os modelos por meio de avaliações cegas de usuários de clipes de fala gerados usando um sistema baseado em Elo. Os usuários do Speech Arena testam o desempenho dos modelos em três recursos principais: converter fala em texto, permitir compreensão de voz e interação conversacional de ponta a ponta e transformar texto em fala com som natural.
Em um índice separado de taxa de erro de palavras de análise artificial, o modelo Fun-Realtime-ASR do Alibaba ficou em primeiro lugar com uma taxa de erro de palavras de 1,8 por cento, o que significa que menos de duas palavras em cada 100 foram transcritas incorretamente.



