Os chips da Huawei refinam o modelo DeepSeek em um grande salto para a autossuficiência de IA da China

0 24 lido 1 minuto

Os chips da Huawei refinam o modelo DeepSeek em um grande salto para a autossuficiência de IA da China

Uma equipe de pesquisa que inclui a Huawei Technologies afirma ter usado com sucesso os recursos da empresa Ascender chips 910C para concluir o pós-treinamento para o modelo DeepSeek-V4-Pro, marcando um grande passo à medida que a indústria de semicondutores da China tenta passar do suporte à inferência básica de IA para o treinamento de modelos mais complexos em meio ao aumento das sanções dos EUA.

Embora os fabricantes de chips chineses tenham obtido sucesso no apoio à inferência de IA – o processo relativamente simples de executar um modelo já acabado para responder às solicitações do utilizador – eles têm tido dificuldades com o treino, o processo muito mais complexo de construir ou refinar o cérebro de um modelo.

Se o “pré-treinamento” inicial ensina um modelo a falar absorvendo grandes quantidades de dados, o pós-treinamento ensina como trabalhar seguindo instruções humanas, regras de segurança e tarefas específicas.

Um processador Huawei Ascend 910 é exibido durante a PT Expo China em 2023. Foto: Shutterstock Images

Para conseguir isso, os pesquisadores executaram o maior modelo do DeepSeek até o momento – ostentando 1,6 trilhão de parâmetros – em um cluster de computação alimentado por pelo menos 1.000 chips Huawei, de acordo com uma postagem nas redes sociais do governo de Shenzhen na sexta-feira.

A equipe conduziu com sucesso o pós-treinamento de “parâmetros completos”, o que significa que toda a arquitetura do modelo foi atualizada e refinada sem cortes, disse o post.

Anteriormente, o poder da computação doméstica era usado principalmente para inferência, “da mesma forma que a construção de uma via de mão única para o modelo: inserir uma pergunta, gerar uma resposta”, explicou o post. O projeto, no entanto, permitiu que um modelo se auto-refleitasse e se ajustasse.

Isso adicionou “viaturas e loops complexos a essa estrada de mão única, multiplicando instantaneamente por várias vezes as demandas computacionais e de comunicação”, acrescentou.

A exploração – conduzida conjuntamente pela Huawei, o Shenzhen Loop Area Institute, o campus de Shenzhen do Harbin Institute of Technology e o Shenzhen Research Institute of Big Data – “ajudará a aumentar a autossuficiência da cadeia da indústria de IA da China”, afirmou o post.

Source

Cynthia Oliveira 2 horas atrás

0 24 lido 1 minuto