Nvidia chama novo modelo da DeepSeek de ‘um excelente avanço em IA’

Publicado 27/01/2025 • 18:22 | Atualizado há 1 ano

KEY POINTS

Os comentários foram feitos após a DeepSeek ter lançado, na semana passada, o R1, um modelo de raciocínio de código aberto.
A declaração da Nvidia indica que ela vê o avanço da DeepSeek como uma oportunidade para aumentar a demanda por suas unidades de processamento gráfico, ou GPUs.
O custo de treinamento autodeclarado do R1 foi de menos de US$ 6 milhões, uma fração dos bilhões que as empresas do Vale do Silício estão gastando para construir seus modelos de IA.

A Nvidia classificou o modelo R1 da DeepSeek como “um excelente avanço em IA”, apesar da estreia da startup chinesa ter feito as ações da fabricante de chips caírem 17% na segunda-feira (26).

Oportunidade para a Nvidia

A declaração da Nvidia indica que ela vê o avanço da DeepSeek como uma oportunidade para aumentar a demanda por suas unidades de processamento gráfico, ou GPUs.

Jensen Huang, cofundador e CEO da Nvidia Corp., falou durante uma coletiva de imprensa em Taipei, Taiwan, na terça-feira, 4 de junho de 2024. A Nvidia ainda está trabalhando no processo de certificação dos chips de memória de alta largura de banda da Samsung Electronics Co., uma etapa final necessária para que a empresa coreana comece a fornecer um componente essencial para o treinamento de plataformas de IA.

A Nvidia classificou o modelo R1 da DeepSeek como “um excelente avanço em IA”, apesar da estreia da startup chinesa ter feito as ações da fabricante de chips caírem 17% na segunda-feira (26).

Test time scaling e conformidade

“A DeepSeek é um excelente avanço em IA e um exemplo perfeito de Test Time Scaling,” disse um porta-voz da Nvidia à CNBC na segunda-feira (26). “O trabalho da DeepSeek ilustra como novos modelos podem ser criados usando essa técnica, aproveitando modelos amplamente disponíveis e computação totalmente compatível com os controles de exportação.”

Os comentários foram feitos após a DeepSeek ter lançado, na semana passada, o R1, um modelo de raciocínio de código aberto que, segundo relatos, superou os melhores modelos de empresas americanas como a OpenAI. O custo de treinamento autodeclarado do R1 foi de menos de US$ 6 milhões (aproximadamente R$ 32 milhões), uma fração dos bilhões que as empresas do Vale do Silício estão gastando para construir seus modelos de inteligência artificial.

A declaração da Nvidia indica que ela vê o avanço da DeepSeek como uma oportunidade para aumentar a demanda por suas unidades de processamento gráfico, ou GPUs.

“A inferência requer um número significativo de GPUs da Nvidia e redes de alto desempenho,” acrescentou o porta-voz. “Agora temos três leis de escalonamento: pré-treinamento e pós-treinamento, que continuam, e o novo escalonamento em tempo de teste.”

A Nvidia também afirmou que as GPUs usadas pela DeepSeek estavam totalmente em conformidade com as normas de exportação. Isso contraria os comentários do CEO da Scale AI, Alexandr Wang, na CNBC na semana passada, onde ele afirmou acreditar que a DeepSeek usou modelos de GPUs Nvidia que são proibidos na China continental. A DeepSeek diz ter utilizado versões especiais das GPUs da Nvidia destinadas ao mercado chinês.

Siga o Times | CNBC no Google e receba as principais notícias do Brasil e do Mundo.

Siga o Times | CNBC

Desafios para grandes investimentos

Analistas agora questionam se os investimentos de capital multimilionários de empresas como Microsoft, Google e Meta em infraestrutura de IA baseada na Nvidia estão sendo desperdiçados, quando os mesmos resultados podem ser alcançados de forma mais econômica.

No início deste mês, a Microsoft anunciou que está gastando US$ 80 bilhões (aproximadamente R$ 427 bilhões) em infraestrutura de IA somente em 2025, enquanto o CEO da Meta, Mark Zuckerberg, disse na semana passada que a empresa de mídia social planeja investir entre US$ 60 e US$ 65 bilhões (aproximadamente R$ 320 bilhões a R$ 347 bilhões) em despesas de capital em 2025 como parte de sua estratégia de IA.

“Se os custos de treinamento de modelos se mostrarem significativamente menores, esperamos um benefício de custo a curto prazo para empresas de publicidade, viagens e outros aplicativos de consumo que utilizam serviços de IA em nuvem, enquanto a longo prazo, as receitas e custos relacionados à IA de hiperescala provavelmente serão menores,” escreveu o analista da BofA Securities, Justin Post, em uma nota na segunda-feira (26).

Novas perspectivas para a lei de escalonamento

O comentário da Nvidia também reflete um novo tema que o CEO da Nvidia, Jensen Huang, o CEO da OpenAI, Sam Altman, e o CEO da Microsoft, Satya Nadella, têm discutido nos últimos meses.

Escalonamento em tempo de teste

Grande parte do boom da IA e da demanda por GPUs da Nvidia foi impulsionada pela “lei de escalonamento”, um conceito no desenvolvimento de IA proposto por pesquisadores da OpenAI em 2020. Esse conceito sugeria que sistemas de IA melhores poderiam ser desenvolvidos expandindo significativamente a quantidade de computação e dados usados na construção de um novo modelo, exigindo cada vez mais chips.

Desde novembro, Huang e Altman têm se concentrado em uma nova abordagem para a lei de escalonamento, que Huang chama de “escalonamento em tempo de teste.”

Esse conceito diz que se um modelo de IA totalmente treinado gastar mais tempo usando poder computacional extra ao fazer previsões ou gerar texto ou imagens para permitir que ele “raciocine”, ele fornecerá respostas melhores do que se tivesse funcionado por menos tempo.

Formas da lei de escalonamento em tempo de teste são usadas em alguns dos modelos da OpenAI, bem como no inovador modelo R1 da DeepSeek.

📌 ONDE ASSISTIR AO MAIOR CANAL DE NEGÓCIOS DO MUNDO NO BRASIL:

🔷 Canal 562 ClaroTV+ | Canal 562 Sky | Canal 592 Vivo | Canal 187 Oi | Operadoras regionais

🔷 TV SINAL ABERTO: parabólicas canal 562

🔷 ONLINE: www.timesbrasil.com.br | YouTube

🔷 FAST Channels: Samsung TV Plus, LG Channels, TCL Channels, Pluto TV, Roku, Soul TV, Zapping | Novos Streamings