Nvidia chama novo modelo da DeepSeek de ‘um excelente avanço em IA’
Publicado seg, 27 jan 2025 • 6:22 PM GMT-0300 | Atualizado há 19 dias
67% dos americanos endividados com cartão cometem esse ‘grande erro’, diz especialista
Comcast e NBCUniversal são investigadas nos EUA por iniciativas de diversidade
Como o DeepSeek da China pode impulsionar o já crescente mercado de data centers
Fabricante da bolsa Birkin, Hermès supera expectativas com salto nas vendas do quarto trimestre
Documentos mostram que BYD detém direitos de mineração no Vale do Lítio, em Minas Gerais
Publicado seg, 27 jan 2025 • 6:22 PM GMT-0300 | Atualizado há 19 dias
KEY POINTS
A Nvidia classificou o modelo R1 da DeepSeek como “um excelente avanço em IA”, apesar da estreia da startup chinesa ter feito as ações da fabricante de chips caírem 17% na segunda-feira (26).
Os comentários foram feitos após a DeepSeek ter lançado, na semana passada, o R1, um modelo de raciocínio de código aberto que, segundo relatos, superou os melhores modelos de empresas americanas como a OpenAI.
A declaração da Nvidia indica que ela vê o avanço da DeepSeek como uma oportunidade para aumentar a demanda por suas unidades de processamento gráfico, ou GPUs.
Jensen Huang, cofundador e CEO da Nvidia Corp., falou durante uma coletiva de imprensa em Taipei, Taiwan, na terça-feira, 4 de junho de 2024. A Nvidia ainda está trabalhando no processo de certificação dos chips de memória de alta largura de banda da Samsung Electronics Co., uma etapa final necessária para que a empresa coreana comece a fornecer um componente essencial para o treinamento de plataformas de IA.
A Nvidia classificou o modelo R1 da DeepSeek como “um excelente avanço em IA”, apesar da estreia da startup chinesa ter feito as ações da fabricante de chips caírem 17% na segunda-feira (26).
“A DeepSeek é um excelente avanço em IA e um exemplo perfeito de Test Time Scaling,” disse um porta-voz da Nvidia à CNBC na segunda-feira (26). “O trabalho da DeepSeek ilustra como novos modelos podem ser criados usando essa técnica, aproveitando modelos amplamente disponíveis e computação totalmente compatível com os controles de exportação.”
Os comentários foram feitos após a DeepSeek ter lançado, na semana passada, o R1, um modelo de raciocínio de código aberto que, segundo relatos, superou os melhores modelos de empresas americanas como a OpenAI. O custo de treinamento autodeclarado do R1 foi de menos de US$ 6 milhões (aproximadamente R$ 32 milhões), uma fração dos bilhões que as empresas do Vale do Silício estão gastando para construir seus modelos de inteligência artificial.
A declaração da Nvidia indica que ela vê o avanço da DeepSeek como uma oportunidade para aumentar a demanda por suas unidades de processamento gráfico, ou GPUs.
“A inferência requer um número significativo de GPUs da Nvidia e redes de alto desempenho,” acrescentou o porta-voz. “Agora temos três leis de escalonamento: pré-treinamento e pós-treinamento, que continuam, e o novo escalonamento em tempo de teste.”
A Nvidia também afirmou que as GPUs usadas pela DeepSeek estavam totalmente em conformidade com as normas de exportação. Isso contraria os comentários do CEO da Scale AI, Alexandr Wang, na CNBC na semana passada, onde ele afirmou acreditar que a DeepSeek usou modelos de GPUs Nvidia que são proibidos na China continental. A DeepSeek diz ter utilizado versões especiais das GPUs da Nvidia destinadas ao mercado chinês.
Analistas agora questionam se os investimentos de capital multimilionários de empresas como Microsoft, Google e Meta em infraestrutura de IA baseada na Nvidia estão sendo desperdiçados, quando os mesmos resultados podem ser alcançados de forma mais econômica.
No início deste mês, a Microsoft anunciou que está gastando US$ 80 bilhões (aproximadamente R$ 427 bilhões) em infraestrutura de IA somente em 2025, enquanto o CEO da Meta, Mark Zuckerberg, disse na semana passada que a empresa de mídia social planeja investir entre US$ 60 e US$ 65 bilhões (aproximadamente R$ 320 bilhões a R$ 347 bilhões) em despesas de capital em 2025 como parte de sua estratégia de IA.
“Se os custos de treinamento de modelos se mostrarem significativamente menores, esperamos um benefício de custo a curto prazo para empresas de publicidade, viagens e outros aplicativos de consumo que utilizam serviços de IA em nuvem, enquanto a longo prazo, as receitas e custos relacionados à IA de hiperescala provavelmente serão menores,” escreveu o analista da BofA Securities, Justin Post, em uma nota na segunda-feira (26).
O comentário da Nvidia também reflete um novo tema que o CEO da Nvidia, Jensen Huang, o CEO da OpenAI, Sam Altman, e o CEO da Microsoft, Satya Nadella, têm discutido nos últimos meses.
Grande parte do boom da IA e da demanda por GPUs da Nvidia foi impulsionada pela “lei de escalonamento”, um conceito no desenvolvimento de IA proposto por pesquisadores da OpenAI em 2020. Esse conceito sugeria que sistemas de IA melhores poderiam ser desenvolvidos expandindo significativamente a quantidade de computação e dados usados na construção de um novo modelo, exigindo cada vez mais chips.
Desde novembro, Huang e Altman têm se concentrado em uma nova abordagem para a lei de escalonamento, que Huang chama de “escalonamento em tempo de teste.”
Esse conceito diz que se um modelo de IA totalmente treinado gastar mais tempo usando poder computacional extra ao fazer previsões ou gerar texto ou imagens para permitir que ele “raciocine”, ele fornecerá respostas melhores do que se tivesse funcionado por menos tempo.
Formas da lei de escalonamento em tempo de teste são usadas em alguns dos modelos da OpenAI, bem como no inovador modelo R1 da DeepSeek.