Os chips da Huawei refinam o modelo DeepSeek em um grande salto para a autossuficiência de IA da China

Embora os fabricantes de chips chineses tenham obtido sucesso no apoio à inferência de IA – o processo relativamente simples de executar um modelo já acabado para responder às solicitações do utilizador – eles têm tido dificuldades com o treino, o processo muito mais complexo de construir ou refinar o cérebro de um modelo.
Se o “pré-treinamento” inicial ensina um modelo a falar absorvendo grandes quantidades de dados, o pós-treinamento ensina como trabalhar seguindo instruções humanas, regras de segurança e tarefas específicas.
Para conseguir isso, os pesquisadores executaram o maior modelo do DeepSeek até o momento – ostentando 1,6 trilhão de parâmetros – em um cluster de computação alimentado por pelo menos 1.000 chips Huawei, de acordo com uma postagem nas redes sociais do governo de Shenzhen na sexta-feira.
A equipe conduziu com sucesso o pós-treinamento de “parâmetros completos”, o que significa que toda a arquitetura do modelo foi atualizada e refinada sem cortes, disse o post.
Anteriormente, o poder da computação doméstica era usado principalmente para inferência, “da mesma forma que a construção de uma via de mão única para o modelo: inserir uma pergunta, gerar uma resposta”, explicou o post. O projeto, no entanto, permitiu que um modelo se auto-refleitasse e se ajustasse.
Isso adicionou “viaturas e loops complexos a essa estrada de mão única, multiplicando instantaneamente por várias vezes as demandas computacionais e de comunicação”, acrescentou.
A exploração – conduzida conjuntamente pela Huawei, o Shenzhen Loop Area Institute, o campus de Shenzhen do Harbin Institute of Technology e o Shenzhen Research Institute of Big Data – “ajudará a aumentar a autossuficiência da cadeia da indústria de IA da China”, afirmou o post.



